预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106919653A(43)申请公布日2017.07.04(21)申请号201710054255.X(22)申请日2017.01.24(71)申请人广西师范学院地址530023广西壮族自治区南宁市青秀区燕子岭路4号(72)发明人潘颖程茂华元昌安蒋雪玲(74)专利代理机构北京远大卓悦知识产权代理事务所(普通合伙)11369代理人靳浩(51)Int.Cl.G06F17/30(2006.01)G06Q30/02(2012.01)G06Q30/06(2012.01)权利要求书1页说明书5页附图2页(54)发明名称基于用户行为的日志过滤方法(57)摘要本发明公开了一种基于用户行为的日志过滤方法,包括以下步骤:步骤一、将用户行为划分成多种子行为并分配相应的权重,通过分布式日志采集工具获取并存储用户行为的日志信息,提取并滤除低于权重阈值的相应子行为的日志信息;步骤二、对保留的子行为的日志信息通过效用函数进行并行处理,所述效用函数建立用户兴趣度与子行为指标的映射关系,提取并滤除低于兴趣度阈值的子行为相应的日志信息,保留用户偏好的子行为的日志信息,形成推荐结果的优化数据源,存储在数据集群中。本发明能够对海量日志信息二次过滤,及时响应用户的当前需求和感兴趣的信息,提高处理效率,本发明容易扩展以及具有一定的容错性。CN106919653ACN106919653A权利要求书1/1页1.一种基于用户行为的日志过滤方法,其特征在于,包括以下步骤:步骤一、将用户行为划分成多种子行为并分配相应的权重,通过分布式日志采集工具获取并存储用户行为的日志信息,提取并滤除低于权重阈值的相应子行为的日志信息;步骤二、对保留的子行为的日志信息通过效用函数进行并行处理,所述效用函数建立用户兴趣度与子行为指标的映射关系,提取并滤除低于兴趣度阈值的子行为相应的日志信息,保留用户偏好的子行为的日志信息,形成推荐结果的优化数据源,存储在数据集群中。2.如权利要求1所述的基于用户行为的日志过滤方法,其特征在于,步骤一中,建立用户行为的行为函数,定义多种子行为,根据用户的需求对多种子行为的权重调整赋值,行为函数为其中,wi为用户α各子行为对应的权重,0<wi<1,x1.x2……xm为用户α对应的m种子行为。3.如权利要求1所述的基于用户行为的日志过滤方法,其特征在于,子行为包括用户信息、用户访问时间、页面地址、子行为指标。4.如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为指标为多个独立的参数时,步骤二中的效用函数为根据用户的需求对各参数的权重调整赋值,计算该子行为的用户兴趣度,其中,wi为子行为β各参数对应的权重,0<wi<1,y1.y2……yn为子行为β对应的n个参数。5.如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为指标为执行与未执行的两个选项时,步骤二中的效用函数为保留取值为1的选项对应的子行为相应的日志信息。6.如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为为搜索行为时,读取用户搜索的关键词,采用语义模型获取关键词的关联词,子行为指标为关键词与关联词的相似度,步骤二中的效用函数为从数据集群的历史搜索行为的日志信息中提取取值为1的含有关键词的日志信息,提取不低于相似度阈值的关联词的日志信息。2CN106919653A说明书1/5页基于用户行为的日志过滤方法技术领域[0001]本发明涉及信息技术领域。更具体地说,本发明涉及一种基于用户行为的日志过滤方法。背景技术[0002]随着互联网的迅速发展,用户在使用网络的过程中产生海量的日志信息。用户在面对海量的互联网信息时,无法从中获取自己感兴趣的信息,产生信息超载问题。因此,各种推荐方法便成为研究热点,使得用户群体可以实时、有效地获取自己感兴趣的信息(比如感兴趣的微博推荐、商品推荐、电影推荐等等)。在推荐中日志过滤是一个必不可少的环节,然而,目前的日志过滤技术存在许多不足,例如数据缺失(数据不完整、缺少ID、时间、商品ID等)比如仅仅对含有噪声、缺失值(例如图片缺光)的数据进行过滤。并且不同的推荐系统所用的过滤方法不一样,不能达到通用性。如今在大数据环境下,互联网中各类网站产生越来越多种类的用户行为,根据用户行为设计通用的日志过滤方法是一个研究趋势。发明内容[0003]本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。[0004]本发明还有一个目的是提供一种基于用户行为的日志过滤方法,其能够对海量日志信息二次过滤,及时响应用户的当前需求和感兴趣的信息,提高处理效率,本发明容易扩展以及具有一定的容错性。[0005]为了实现根据本发明的这些目的和其它优点,提供了一种基于用户行为的日志过滤方法,包括以