预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106599163A(43)申请公布日2017.04.26(21)申请号201611123018.6(22)申请日2016.12.08(71)申请人上海云信留客信息科技有限公司地址200030上海市徐汇区斜土路1223号之俊大厦1802室(72)发明人刘春明(74)专利代理机构北京冠和权律师事务所11399代理人朱健陈国军(51)Int.Cl.G06F17/30(2006.01)G06F17/27(2006.01)权利要求书3页说明书9页附图2页(54)发明名称一种用于大数据的数据挖掘方法和装置(57)摘要本发明提供了一种用于大数据的数据挖掘方法,包括如下步骤:对文本数据库内容当中的每一条语句进行分词;对分词后的字、词及词组是否属于实体进行识别;然后对分词后的字、词及词组进行语义标注分析;对文本数据库内容进行句法分析;根据句法分析结果生成完整结构化数据库;将完整结构化数据库分割为不同的子数据库;根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。本发明的方法可以提高数据挖掘的效率。本发明还提供了一种用于大数据的数据挖掘装置。CN106599163ACN106599163A权利要求书1/3页1.一种用于大数据的数据挖掘方法,其特征在于,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。2.根据权利要求1所述的方法,其特征在于,在步骤103中,语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。3.根据权利要求1所述的方法,其特征在于,在步骤105中,生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。4.根据权利要求1所述的方法,其特征在于,在步骤106中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主,分割子数据库时,使标记相似的语句放入同一个子数据库中,不同的子数据库之间相似度尽量小,其中:计算语句之间相似度的公式为:其中,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)为结构化数据库中的d1语句的分类标记个数,其值与L(d2)相等,L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目,n1和n2为可调节系数,其值大于0;计算语句与子数据库之间相似度的计算公式为:其中,D为子数据库,L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目,n3和n4为可调节系数,其值大于0;子数据库之间的相似度计算公式为:其中,L(D1)为子数据库D1中的索引的数目,L(D1∩D2)为子数据库D1和D2相同的索引的数目,n5和n6为可调节系数,其值大于0。2CN106599163A权利要求书2/3页5.根据权利要求1所述的方法,其特征在于,在步骤107中,根据挖掘目标的不同,选择不同的子数据库、子数据库的组合或完整结构化数据库进行挖掘分析。6.一种用于大数据的数据挖掘装置,其特征在于,包括:分词模块,用于对文本数据库内容当中的每一条语句进行分词;字词实体识别模块,用于分词后的字、词及词组是否属于实体进行识别;语义标注模块,用于对分词后的字、词及词组进行语义标注分析;句法分析模块,用于对文本数据库内容进行句法分析;数据库生成模块,用于根据句法分析结果生成完整结构化数据库;数据库分割模块,用于将完整结构化数据库分割为不同的子数据库;数据挖掘模块,用于根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。7.根据权利要求6所述的装置,其特征在于:语义标住模块,用于在语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。8.根据权利要求6所述的装置,其特征在于:数据库生成模块,用于生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。9.根据权利要求6所述的装置,其特征在于:数据库分割模块,用于根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主