预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112329836A(43)申请公布日2021.02.05(21)申请号202011203373.0G06N20/00(2019.01)(22)申请日2020.11.02(71)申请人成都网安科技发展有限公司地址610000四川省成都市青羊区广富路218号G区6栋C座(72)发明人朱永强伍文成(74)专利代理机构成都极刻智慧知识产权代理事务所(普通合伙)51310代理人唐维虎(51)Int.Cl.G06K9/62(2006.01)G06F40/289(2020.01)G06F40/30(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书12页附图7页(54)发明名称基于深度学习的文本分类方法、装置、服务器及存储介质(57)摘要本申请实施例提供一种基于深度学习的文本分类方法、装置、服务器及存储介质,通过按照训练语料分句权重对训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集,从而可以按照语言习惯选择尽可能保留完整语句与原始语序,通过基于分句权重选取关键分句用于后续的文本分类判别训练,可以使得深度学习模型能够学习到正常的语义特征。在此基础上,通过获取训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型,从而采用多长度分区的多模型训练方式,能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类,提高分类精度。CN112329836ACN112329836A权利要求书1/3页1.一种基于深度学习的文本分类方法,其特征在于,应用于服务器,所述方法包括:对训练语料集合进行处理,构建所述训练语料集合对应的词权重表;根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重,并按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集;获取所述训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型;基于所述文本分类模型对输入的待分类文本进行文本分类。2.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述对训练语料集合进行处理,构建所述训练语料集合对应的词权重表步骤,包括:获取训练语料集合,所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签;对每个所述训练文本进行分词,得到所述训练文本对应的分词结果,所述分词结果由多个分词组成;采用贝叶斯算法计算每个分词的贝叶斯后验概率,其中,所述贝叶斯后验概率用于表示当一个目标分词出现时,该目标分词对应的训练文本为每个类别标签的概率;对所述每个分词的贝叶斯后验概率进行统计,获得所述每个分词的类别标签概率分布,并将所述类别标签概率分布的方差作为所述每个分词的词权重,其中,所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度,当离散程度越大时,所述类别标签概率分布对应的类别标签的区分能力越大;对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。3.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤,包括:对所述训练语料集合中每个训练语料进行分句,得到至少一个分句;对每个所述分句进行分词,得到每个所述分句的分词结果;从所述词权重表中获得每个所述分句的分词结果中每个分词的词权重,并将所述每个分词的词权重之和确定为所述分句的分句权重。4.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集的步骤,包括:计算每一训练语料的文本长度,其中,所述文本长度为所述训练语料中所有分句的分词总数量;若所述训练语料的文本长度小于等于预设长度,则将所述训练语料的所有分句作为关键分句后进行合并,输出筛选后的训练语料;若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量大于1,则按照所述分句权重对所述训练语料的分句进行排序,选取排序结果中的前N个分句作为关键分句后进行合并,输出筛选后的训练语料,其中,N为正整数,并且筛选后的训练语料的文本长度不大于所述预设长度;以及若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量为1,则2CN112329836A权利要求书2/3页将所述训练语料中超出所述预设长度的分词进行剔除后,输出筛选后的训练语料。5.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述获取所述训练样本集中不同预设长度分