一种用于文本数据聚类的方法和装置.pdf
觅松****哥哥
亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种用于文本数据聚类的方法和装置.pdf
本发明公开了一种用于文本数据聚类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取批量文本数据,以及确定所述批量文本数据中的每个文本数据的特征词集合;对于每个文本数据的特征词集合,确定该特征词集合中每个特征词的权重;根据所述特征词集合中特征词的权重,对所述批量文本数据进行排序;基于所述排序结果,对所述批量文本数据进行聚类计算。该方法利用特征权重对文本聚类的顺序重新排列,可优先将包含信息量丰富的文本数据聚类形成话题类,后续再根据该已聚成的话题类进行文本聚类,可提高聚类的准确性。
一种数据聚类的方法和装置.pdf
本发明实施例提供了一种数据聚类的方法和装置,其中,所述方法包括:获取待聚类的目标日志数据;判断是否查找到与所述目标日志数据相似的第一日志数据;在查找到所述第一日志数据时,根据所述第一日志数据确定第一聚类信息;按照所述第一聚类信息,对所述目标日志数据进行聚类。通过本发明实施例,实现了对日志数据聚类的优化,由于设置了根据第一次查找到相似的日志数据进行聚类,保证了聚类结果的一致性,能够兼容于存在并发的分布式系统,且无需计算与得到的多个聚类簇之间的相似度,还能够减少数据聚类所需计算的次数,降低了算法的复杂度,节省
一种应用于数据仓库的聚类方法、装置、设备和存储介质.pdf
本发明实施例公开了一种应用于数据仓库的聚类方法、装置、设备和存储介质。获取数据仓库中的各字段,确定各字段在向量空间的局部密度,根据局部密度确定各字段中作为簇中心点的字段,按照局部密度将簇中心点进行分箱处理,并将簇中心点之外的其他字段加入距离最近的簇中心点对应的簇中,可以得到局部密度均匀且每类簇中的数据量大小统一的分箱,进一步根据局部密度对每一分箱内的字段进行聚类,适用于任意聚类形状的字段,并对每个分箱内的相同字段完成聚类。解决了现有技术中因聚类大小不一、聚类形状非凸以及聚类密度不均降低聚类结果的准确性的问
用于文本匹配的方法和装置.pdf
本发明公开了一种用于文本匹配的方法和装置,涉及计算机技术领域。其中,该方法包括:基于知识图谱提取简历文本和职位文本中的关键词;在所述简历文本和职位文本中的关键词数量都大于预设阈值的情况下,基于训练好的第一神经网络模型生成简历文本的向量和职位文本的向量;确定所述简历文本的向量和所述职位文本的向量的相似度,然后根据所述相似度判断所述简历文本和所述职位文本是否匹配。通过以上步骤,能够提高简历文本和职位文本的匹配准确率,进而提高职位或简历推荐服务的精准度。
数据聚类方法以及装置.pdf
本说明书实施例提供数据聚类方法以及装置,其中所述数据聚类方法包括:获取待聚类数据集,并根据所述待聚类数据集中任意两个待聚类数据间的匹配概率,对所述任意两个待聚类数据进行聚类处理,生成中间聚类结果,根据所述中间聚类结果中任意两个待聚类数据间的匹配概率,确定所述中间聚类结果中、每个待聚类数据对应的期望值,其中,所述期望值包括聚类准确度期望值和/或聚类分裂度期望值,根据所述期望值,对所述中间聚类结果进行调整,生成对应的目标聚类结果。