预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107301199A(43)申请公布日2017.10.27(21)申请号201710347975.5(22)申请日2017.05.17(71)申请人北京融数云途科技有限公司地址100080北京市海淀区苏州街3号502-60室(72)发明人李晖胡宁杭郑悦(74)专利代理机构北京方圆嘉禾知识产权代理有限公司11385代理人董芙蓉(51)Int.Cl.G06F17/30(2006.01)权利要求书3页说明书8页附图1页(54)发明名称一种数据标签生成方法和装置(57)摘要本发明公开了一种数据标签生成方法和装置,涉及互联网数据领域。本发明方法包括:获取原始文本数据;利用顶层主题数据库分析得到多个顶层主题文本数据;预处理顶层主题文本数据得到顶层主题预处理文本数据;提取顶层主题预处理文本数据中所有文档Tf-idf特征值得到矩阵数据;对矩阵数据进行主题聚类得到多个不同主题聚类;从每个主题聚类中关键词并由高至低排序;根据实际应用对关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词;根据新关键词排序表得到各主题聚类的标签。本发明方法可快速高效对海量数据进行主题聚类,所得标签体系结构完整、内容丰富以、更贴近实际应用以便于用户使用。CN107301199ACN107301199A权利要求书1/3页1.一种数据标签生成方法,其特征在于,所述方法包括如下步骤:获取原始文本数据;利用顶层主题数据库对所述原始文本数据进行顶层分类,得到多个顶层主题文本数据;对每个所述顶层主题文本数据进行去冗余预处理,得到多个顶层主题预处理文本数据;获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf-idf特征值,得到每个所述顶层主题预处理文本数据的矩阵数据,其中,矩阵数据的行数为所述文档总数量,一行为一个文档,矩阵数据的列数为所述词语总数量,一列为一个词在文档中的Tf-idf特征值;对每个所述矩阵数据进行主题聚类,得到多个不同主题聚类;从每个所述矩阵数据的每一个主题聚类中分别挑取20-50个与对应的主题聚类密切相关的关键词;根据关键词与其对应的主题聚类相关度,由高至低进行排序,对应得到多个关键词排序表;根据实际应用对所述多个关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词,删除与对应主题聚类内容相关度密切但错误表达主题聚类内容的关键词,形成多个新关键词排序表;根据所述新关键词排序表与其对应主题聚类的相关度,对每一个主题聚类定义标签。2.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述定义标签的步骤之后还包括以下步骤:将主题聚类得到的多个标签形成原始标签库;将新产生的标签与所述原始标签库中的标签进行校验,去除主题名称重复的标签;将校验通过的新标签加入所述原始标签库中,形成现有标签库;所述现有标签库根据每一次新标签的加入自动更新和增长。3.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述顶层主题数据库包括基本属性主题的数据、生活场景主题的数据、影响因子主题的数据以及性格心理主题的数据。4.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述原始文本数据是从网站爬取或客户提供;所述去冗余预处理是对所述顶层分类文本数据进行统一编码、繁体转简体、半角转全角、去除标点符号、去除链接、去除html以及中文分词;从每一个主题聚类中分别挑取30个与对应主题聚类密切相关的关键词;所述Tf-idf特征值为词频和逆向文档频率。5.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述对每个所述矩阵数据进行主题聚类是采用非负矩阵分解方法,得到的主题聚类结构为平级结构;或者,所述对每个所述矩阵数据进行主题聚类是采用多层次主题聚类方法,得到的主题聚类结构为树形结构。6.根据权利要求5所述的一种数据标签生成方法,其特征在于,所述树形结构的形成过2CN107301199A权利要求书2/3页程具体为:对每个所述顶层主题文本数据的多个文档进行非负矩阵分解,找出所述多个文档中最显著的两个主题,所述两个主题为第一主题和第二主题;根据所述多个文档与所述第一主题和所述第二主题之间的相关度,将所述多个文档分为两组,得到第一主题文档集和第二主题文档集;所述第一主题和与其对应的第一主题文档集以及所述第二主题和与其对应的第二主题文档集均为所述树形结构的第一层子结构数据;对所述第一主题文档集和所述第二主题文档集分别进行非负矩阵分解,在所述第一主题文档集中找到最显著的两个主题,所述主题为第三主题和第四主题,根据所述所述第一主题文档集与所述第三主题和所述第四主题之间的相关