预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114756676A(43)申请公布日2022.07.15(21)申请号202210259456.4(22)申请日2022.03.16(71)申请人中国农业银行股份有限公司地址100005北京市东城区建国门内大街69号(72)发明人曹思诺宋启威杨妍(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师韩丽波(51)Int.Cl.G06F16/35(2019.01)G06F16/38(2019.01)权利要求书2页说明书8页附图3页(54)发明名称一种文本特征的提取方法、装置和电子设备(57)摘要本申请实施例公开了一种文本特征的提取方法、装置和电子设备,该方法包括:获取样本集合和特征词集合,并确定样本集合中每个文本的类别;根据每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;对于特征词集合中的每个特征词和样本集合中的每个文本,根据第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据第二参数、文本集合中包含特征词的文本个数,以及文本中所有词汇出现的次数的总和,确定第二频率;根据第一频率和第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,用以提高文本分类的准确性。CN114756676ACN114756676A权利要求书1/2页1.一种文本特征的提取方法,其特征在于,所述方法包括:获取样本集合和特征词集合,并确定样本集合中每个文本的类别;根据所述每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据所述第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据所述第二参数、所述文本集合中包含特征词的文本个数,以及文本中所有词汇出现的次数的总和,确定第二频率;根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵。2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:根据所述每个特征词的词性,确定所述每个特征词的词性权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述词性权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据特征词在文本中的位置,确定所述每个特征词的位置权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述位置权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。4.根据权利要求1所述的方法,其特征在于,在所述获取样本集合和特征词集合之后,所述方法还包括:删除所述样本集合中的每个文本中的未登录词,其中,所述未登录词包括文本中的人名、地名。5.一种文本特征的提取装置,其特征在于,所述装置包括:数据获取单元,用于获取样本集合和特征词集合;第一确定单元,用于确定样本集合中每个文本的类别;第二确定单元,用于根据所述每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;第三确定单元,用于对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据所述第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据所述第二参数、所述文本集合中包含特征词的文本个数,以及文本2CN114756676A权利要求书2/2页中所有词汇出现的次数的总和,确定第二频率;权重矩阵确定单元,用于根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵。6.根据权利要求5所述的装置,其特征在于,所述装置还包括词性权重确定单元,用于根据所述每个特征词的词性,确定所述每个特征词的词性权重;权重矩阵确定单元,还用于根据所述第一频率、所述第二频率和所述词性权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。7.根据权利要求5所述的装置,其特征在于,所述装置还包括位置权重确定单元,用于对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据特征词在文本中的位置,确定所述每个特征词的位置权重;权重矩阵确定单元,还