预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761305A(43)申请公布日2021.12.07(21)申请号202010494685.5(22)申请日2020.06.03(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈希(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张一军王安娜(51)Int.Cl.G06F16/906(2019.01)G06F16/958(2019.01)权利要求书2页说明书13页附图4页(54)发明名称一种生成标签层级结构的方法和装置(57)摘要本发明公开了一种生成标签层级结构的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;根据各个所述标签对生成标签关系图;其中,所述关系图中的节点为标签,边的权重为两个标签在同一文件对象中的共现次数;对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。该实施方式能够解决标签在标签层级结构中的位置唯一的技术问题。CN113761305ACN113761305A权利要求书1/2页1.一种生成标签层级结构的方法,其特征在于,包括:根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;根据各个所述标签对生成标签关系图;其中,所述关系图中的节点为标签,边的权重为两个标签在同一文件对象中的共现次数;对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。2.根据权利要求1所述的方法,其特征在于,所述对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构,包括:计算所述标签关系图中各个节点的平均中心度;根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点;分别计算每个所述次根节点与各个邻接节点的隶属度,从而确定各个所述次根节点对应的候选节点集合,所述候选节点集合中的各个节点与所述次根节点具有隶属关系;重复执行上述步骤,从而生成标签层级结构。3.根据权利要求2所述的方法,其特征在于,所述计算所述标签关系图中各个节点的平均中心度,包括:对于每个节点,分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值;分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理;对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均,从而得到所述节点的平均中心度。4.根据权利要求2所述的方法,其特征在于,所述根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点,包括:对各个所述节点的平均中心度进行降序排列,筛选出平均中心度靠前的N个节点;其中,N为大于零的整数;对于所述N个节点,将具有关联关系的节点划分为一组,从而得到至少一个节点组;对于每个节点组,将所述节点组中平均中心度最大的节点作为根节点。5.根据权利要求2所述的方法,其特征在于,采用如下方法计算所述次根节点与任意一个邻接节点的隶属度:所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。6.根据权利要求2所述的方法,其特征在于,所述确定各个所述次根节点对应的候选节点集合,包括:将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合,以使每个所述邻接节点至少隶属于一个次根节点。7.根据权利要求1所述的方法,其特征在于,所述根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对,包括:根据各个标签在各个文件对象中的出现次数,分别计算任意两个标签在同一文件对象2CN113761305A权利要求书2/2页中的共现次数;对于任意两个标签,根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量,判定所述两个标签之间是否存在关联关系,从而筛选出存在关联关系的标签对。8.根据权利要求7所述的方法,其特征在于,所述根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量,判定所述两个标签之间是否存在关联关系,包括:将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除,得到支持度;将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除,得到置信度;若所述支持度大于等于支持度阈值,且所述置信度大于等于置信度阈值,则判定所述两个标签之间存在关联关系。9.根据权利要求1所述的方法,其特征在于,在所述生成标签层级结构之后,还包括: