预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106528778A(43)申请公布日2017.03.22(21)申请号201610977073.5(22)申请日2016.11.04(71)申请人广州华多网络科技有限公司地址511449广东省广州市番禺区南村镇万博商务区万达广场B-1座29层(72)发明人陶胜(74)专利代理机构北京市立方律师事务所11330代理人王增鑫(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书12页附图2页(54)发明名称用户留存类数据获取方法及装置(57)摘要本发明提供的一种用户留存类数据获取方法,基于hadoop系统的基础构架,通过Hive语句引入外部辅助函数,首先通过辅助函数筛选出具有共通点的留存数据集合,缩小数据记录的范围,缩短计算时筛选数据记录的时间,再在集合数据记录中筛选数据并通过辅助函数进行留存数据计算并以映射关系存储于汇总数据表中,最后对汇总数据表的数据进行运算,获得产品的留存率。辅助函数通过预定义数据类型,除去重复数据记录,简化预算流程,通过辅助函数避免了多次重复join操作在大数据的范围内筛选有用数据,使整个运算过程的逻辑简单清晰,缩短计算时间,计算效率大幅提升。此外,本发明还提供了一种用户留存类数据获取装置,用于运行所述方法。CN106528778ACN106528778A权利要求书1/2页1.一种用户留存类数据获取方法,其特征在于,包括如下步骤:对hadoop系统的数据库运算,获得预定时间范围内所有用户访问产品产生的数据记录,将该些数据记录存储在筛选数据表中;对筛选数据表运算,获得每个所述产品在某日产生所述数据记录的用户的数量总和作为各相应产品的全部用户量,以及获得每个所述产品在该日起后续时间段内产生所述数据记录的用户的数量总和作为各相应产品的留存用户量,以映射关系将所述产品、所述全部用户量及留存用户量关联性存储于汇总数据表中;对汇总数据表运算,以每个产品的留存用户量与其全部用户量之比求取各产品相关的用户留存率,将各产品及其相应的用户留存率以映射关系存储于留存数据表中。2.根据权利要求1所述的一种方法,其特征在于,本方法的各步骤分别用单一Hive语句构造的指令执行。3.根据权利要求1所述的方法,其特征在于,对hadoop系统的数据库运算,获得预定时间范围内所有用户访问产品产生的数据记录,将该些数据记录存储在筛选数据表中,所述数据记录在筛选时使用外部函数collect_set(col),所述col为基本类型数据,且去掉重复数据记录;对筛选数据表运算,获得每个所述产品在某日产生所述数据记录的用户的数量总和作为各相应产品的全部用户量,以及获得每个所述产品在该日起后续时间段内产生所述数据记录的用户的数量总和作为各相应产品的留存用户量,在此过程中使用了外部函数dt_contains(set,start,end),所述set为日期集合,所述start为开始日期,所述end为结束日期。4.根据权利要求1所述的方法,其特征在于,对hadoop系统的数据库运算,获得预定时间范围内所有用户访问产品产生的数据记录,将该些数据记录存储在筛选数据表中步骤之前,包括:接收数据库的选定,从对应数据库中获取预定时间范围内所有用户访问产品产生的数据记录。5.根据权利要求3所述的方法,其特征在于,所述函数dt_contains(set,start,end)在计算过程,所述函数用于在由set指定的数据表中选出由start至end所限定的日期范围之间的数据记录,且所述start时间必须小于所述end时间。6.根据权利要求1所述的方法,其特征在于,在对筛选数据表运算过程中,获取所述全部用户量和所述留存用户量是基于同一用户在同一时间范围内使用同一产品的数据记录进行去重。7.一种基于hadoop系统获取用户留存类数据的装置,其特征在于,包括筛选数据单元、汇总单元、留存率求取单元:所述筛选数据单元,预设数据记录筛选的时间条件值,在hadoop系统的数据库中对预设时间范围内的数据记录进行筛选,将该些数据记录存储在筛选数据表中;所述汇总单元,用于设定所述全部用户量及留存用户量的时间条件值,同时以映射关系将所述产品、所述全部用户量及留存用户量关联性存储于汇总数据表中;所述留存率求取单元,用于求取各产品相关的用户留存率,将各产品及其相应的用户留存率以映射关系存储于留存数据表中。2CN106528778A权利要求书2/2页8.根据权利要求7所述的装置,其特征在于,与所述筛选数据单元相对应时间条件值预设单元,用于设定从hadoop系统数据库中筛选所有用户访问产品产生的数据记录的前提条件值;与所述汇总单元相对应的时间条件值设定单元,用于设定从筛选数据表格中获得全部用户量和留存用户量