预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113420550A(43)申请公布日2021.09.21(21)申请号202110745446.7(22)申请日2021.06.30(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人刘青林(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人陈洪艳臧建明(51)Int.Cl.G06F40/284(2020.01)G06F16/33(2019.01)权利要求书3页说明书12页附图2页(54)发明名称提取关键词的方法及装置(57)摘要本申请提供一种提取关键词的方法及装置。本申请提出的技术方案中,通过获取第一文档的N个词汇中每个词汇的第一文档频率和N个词汇中每个词汇的第二文档频率,再根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,最后根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。该技术方案中,考虑了词汇在类间分布情况和类内分布情况,实现了对关键词更加准确的提取。CN113420550ACN113420550A权利要求书1/3页1.一种提取关键词的方法,其特征在于,所述方法包括:获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率;获取所述N个词汇中每个词汇的第二文档频率,所述每个词汇的第二文档频率用于指示所述第一文档子集中包含所述每个词汇的文档在所述第一文档子集中的频率;根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,其中,所述第一文档频率越大,所述每个词汇在所述第一文档中的重要程度越小,所述第二文档频率越大,所述每个词汇在所述第一文档中的重要程度越大;根据所述N个词汇中每个词汇在所述第一文档中的重要程度,从所述N个词汇中确定所述第一文档的关键词。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述N个词汇中每个词汇在所述第一文档子集中的类内分布DC情况;其中,所述根据所述N个词汇中每个词汇的第一文档频率和第二文档频率,确定所述每个词汇在所述第一文档中的重要程度,包括:根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取第一文档中的N个词汇中每个词汇在所述第一文档中的词频TF;其中,所述根据所述N个词汇中每个词汇的第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度,包括:根据所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率和所述每个词汇在所述第一文档子集中的DC情况,确定所述每个词汇在所述第一文档中的重要程度。4.根据权利要求3所述的方法,其特征在于,所述N个词汇中每个词汇的TF、第一文档频率、第二文档频率、所述每个词汇在所述第一文档子集中的类内分布DC情况与所述每个词汇在所述第一文档中的重要程度之间满足如下关系式:其中,i,j,k为正整数,TF‑DFD表示所述每个词汇在所述第一文档中的重要程度,表示所述N个词汇中每个词汇的TF,nij表示所述N个词汇中每个词汇在所述第一文档中出现的次数,∑knkj表示所述第一文档中每个词汇出现的次数之和,2CN113420550A权利要求书2/3页表示所述第一文档频率的倒数,λ表示所述第二文档频率,N(C)表示所述文档集中的所有文档数,N(ti,Ci)表示所述第一文档子集中包含所述每个词汇的文档数,表示所述M个文档子集中除第一文档子集以外的文档子集中包含所述每个词汇的文档数,N(Ci)表示所述第一文档子集中的文档总数,表示所述每个词汇在所述第一文档子集中的类内分布DC情况,TF(tij)表示所述每个词汇的TF值,表示所述每个词汇的TF值的平均值。5.一种提取关键词的装置,其特征在于,所述装置包括:获取模块,用于获取第一文档的N个词汇中每个词汇的第一文档频率,所述第一文档为第一文档子集中的一个文档,所述第一文档子集为文档集的M个文档子集中的一个文档子集,所述M个文档子集中同一个文档子集中的文档属于同一类文档,M和N为正整数,所述每个词汇的第一文档频率用于指示所述文档集中包含所述每个词汇的文档在所述文档集中的频率,并获取所述N个