预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111753082A(43)申请公布日2020.10.09(21)申请号202010207346.4G06F40/30(2020.01)(22)申请日2020.03.23(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人徐路罗壮何云龙(74)专利代理机构北京律智知识产权代理有限公司11438代理人王辉阚梓瑄(51)Int.Cl.G06F16/35(2019.01)G06F40/289(2020.01)G06F40/211(2020.01)权利要求书2页说明书14页附图6页(54)发明名称基于评论数据的文本分类方法及装置、设备和介质(57)摘要本公开是关于一种基于评论数据的文本分类方法及装置、设备以及介质,涉及自然语言处理技术领域,可以应用于对文本数据进行分类的场景。该基于评论数据的文本分类方法包括:获取评论数据,对评论数据进行文本预处理,以生成待处理分词数据;对待处理分词数据进行词向量化处理,以生成对应的词向量表示数据;将词向量表示数据输入至目标语言表示模型,以生成对应的句子向量表示数据;将句子向量表示数据分别输入至第一分类模型和第二分类模型,由第一分类模型确定评论数据是否属于问题文本数据,以及由第二分类模型确定评论数据对应的问题类型分类。本公开可以通过对评论数据的信息挖掘,筛选出有质量问题的评论文本以及质量问题的具体分类。CN111753082ACN111753082A权利要求书1/2页1.一种基于评论数据的文本分类方法,其特征在于,包括:获取评论数据,并对所述评论数据进行文本预处理,以生成待处理分词数据;对所述待处理分词数据进行词向量化处理,以生成对应的词向量表示数据;将所述词向量表示数据输入至目标语言表示模型,以生成对应的句子向量表示数据;将所述句子向量表示数据输入至第一分类模型,由所述第一分类模型确定所述评论数据是否属于问题文本数据;以及将所述句子向量表示数据输入至第二分类模型,由所述第二分类模型确定所述评论数据对应的问题类型分类。2.根据权利要求1所述的基于评论数据的文本分类方法,其特征在于,所述对所述评论数据进行文本预处理,以生成待处理分词数据,包括:对所述评论数据进行正则匹配处理,以生成正则文本数据;对所述正则文本数据进行分词切分处理,以生成字项分词数据;对所述字项分词数据进行词语修正处理,以生成所述待处理分词数据。3.根据权利要求2所述的基于评论数据的文本分类方法,其特征在于,所述对所述字项分词数据进行词语修正处理,包括:获取停用词参考表,并根据所述停用词参考表删除所述字项分词数据中的停用词;以及确定所述字项分词数据中待修改词语,并对所述待修改词语进行替换处理。4.根据权利要求1所述的基于评论数据的文本分类方法,其特征在于,所述对所述待处理分词数据进行词向量化处理,以生成对应的词向量表示数据,包括:获取分词词汇表,并构建所述分词词汇表对应的向量空间;根据所述向量空间对所述待处理分词数据进行词向量化处理,以得到所述评论数据的词向量表示数据。5.根据权利要求1所述的基于评论数据的文本分类方法,其特征在于,在所述将所述词向量表示数据输入至目标语言表示模型之前,所述方法还包括:获取初始语言表示模型以及初始训练数据;获取掩膜标识与预设比例,并按照所述预设比例从所述初始训练数据中随机选取目标数量个替换训练数据;根据所述掩膜标识对所述替换训练数据进行替换处理,以生成目标训练数据;将所述目标训练数据输入至初始语言表示模型,并获取所述初始语言表示模型的输出结果;根据所述输出结果对所述初始语言表示模型的参数进行调整,以得到所述目标语言表示模型。6.根据权利要求1所述的基于评论数据的文本分类方法,其特征在于,所述将所述句子向量表示数据输入至第一分类模型,由所述第一分类模型确定所述评论数据是否属于问题文本数据,包括:将所述句子向量表示数据输入至所述第一分类模型;由所述第一分类模型输出与所述句子向量表示数据对应的第一结果向量;根据所述第一结果向量确定所述评论数据是否属于问题文本数据。2CN111753082A权利要求书2/2页7.根据权利要求1所述的基于评论数据的文本分类方法,其特征在于,所述将所述句子向量表示数据输入至第二分类模型,由所述第二分类模型确定所述评论数据对应的问题类型分类,包括:将所述句子向量表示数据输入至所述第二分类模型;由所述第二分类模型输出与所述句子向量表示数据对应的第二结果向量;其中,所述第二结果向量包括多个置信度;获取与各所述置信度对应的置信度阈值,根据所述置信度与所述置信度阈值之间的大小关系确定所述评论数据对应的问题