预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107623605A(43)申请公布日2018.01.23(21)申请号201610556163.7(22)申请日2016.07.14(71)申请人精硕科技(北京)股份有限公司地址100144北京市石景山区实兴大街30号院3号楼9层9014房间(72)发明人龚如(74)专利代理机构北京睿邦知识产权代理事务所(普通合伙)11481代理人余玥君(51)Int.Cl.H04L12/26(2006.01)权利要求书1页说明书7页附图3页(54)发明名称网络流量去重的方法和系统(57)摘要本发明涉及一种网络流量去重的方法,其包括:接收来自用户终端的HTTP请求;利用标准API采集设备特征ID;利用私有API获得的设备特征ID;采集基于用户使用信息的特征ID;和利用采集到的设备特征ID和基于用户使用信息的特征ID回溯真实用户,从而消除重复流量。本发明还涉及一种用于网络流量去重的系统。CN107623605ACN107623605A权利要求书1/1页1.一种网络流量去重的方法,其包括:接收来自用户终端的HTTP请求;利用标准API采集设备特征ID;利用私有API获得的设备特征ID;采集基于用户使用信息的特征ID作为设备特征ID;利用采集到的设备特征ID和基于用户使用信息的特征ID回溯真实用户,从而消除重复流量。2.根据权利要求1所述的方法,其中从私有API获得的设备特征ID库中包括MAC、IMEI、IMSI、IDFA、和/或CID。3.根据权利要求2所述的方法,其中回溯真实用户包括:当利用标准API采集设备特征ID和对应的利用私有API获得的设备特征ID不同时,以利用私有API获得的设备特征ID作为去重标准。4.根据权利要求1所述的方法,其中所述基于用户使用信息的特征ID所用的信息包括:用户的Wifi历史、系统应用创建时间、和设备的传感器列表。5.根据权利要求4所述的方法,其中所述基于用户使用信息的特征ID通过将用户的Wifi历史、系统应用创建时间、和设备的传感器列表利用哈希算法转换成字符串而获得。6.根据权利要求5所述的方法,其中回溯真实用户包括:利用基于用户使用信息的特征ID作为去重标准。7.根据权利要求1所述的方法,将采集到的设备特征ID和基于用户使用信息的特征ID与设备特征ID库的用户库中的对应信息进行比对,并对每个项目进行打分,当总得分超过阈值时,进行去重。8.一种用于网络流量去重的系统,其包括:采集单元,用于采集设备特征ID和基于用户使用信息的特征ID;设备特征ID库,用于存储采集到的设备特征ID数据,并按照数据的来源形成用户库;判断单元,用于将新采集到的设备特征ID和基于用户使用信息的特征ID与用户库中的数据进行比对,打分;去重单元,对得分超过阈值的数据去重。9.根据权利要求8所述的系统,其中所述设备特征ID是通过标准API和私有API采集的。10.根据权利要求8所述的系统,其中所述去重包括给数据添加标签和/或删除数据。2CN107623605A说明书1/7页网络流量去重的方法和系统技术领域[0001]本发明属于网络反作弊领域,涉及一种网络流量去重的方法。本发明还涉及一种网络流量去重的系统。背景技术[0002]长久以来,稳定而且可信赖的用户设备标识,是诸多行业最为基础的数据支持。目前,有很多方法来帮助系统生产不同的ID用以标识用户。最基础的方法,就通过生产随机数,分配给不同的用户,这种常用于含有账户体系的业务场景。例如腾讯QQ,给每一个用户都分配一个不重复的QQ号码,作为其系统服务的ID。除此以外,也有通过采集设备使用者的信息来生产ID,例如通过采集音频数据、加速传感器数据或者生物指纹传感器的数据,这种可以服务于跨设备的用户标识。[0003]但是如上两种方法,很难满足于移动广告行业反作弊的需求。原因主要有以下两点:[0004]1.移动广告交易主要是以设备为单元进行消耗的计费,例如CPC(按照点击设备数计费)、CPM(按照曝光设备数计费)、CPA(按照激活设备数计费),那么针对持有多设备的用户以及不具有账户体系的广告平台,随机数的方法是不适用的。[0005]2.广告作弊者主要是通过变换较为常见的设备标识进行伪装,例如利用虚拟设备伪装点击、曝光或激活行为,从广告主那里获取额外的收入,使广告主的利益蒙受损失。然而,通过采集使用者信息标识设备会有较多局限:第一是采集方法都是基于特质的传感器,不适用于大部分移动设备;第二是用户识别的方法复杂并且精准度有限。[0006]随着广告支出越来越向移动端倾斜,市场上虚拟设备的拟真程度越来越高,亟需一种有效的识别虚拟设备的方案,以减少无谓的广告支出,保护广告主的利益。[0007]现有技术中,通常使用单一的方法来进行虚拟设备