基于评论数据的文本分类方法及装置、设备和介质-豆柴文库

基于评论数据的文本分类方法及装置、设备和介质.pdf

2023-06-14

10金币

925KB

23页

盼易****君a

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111753082A(43)申请公布日2020.10.09(21)申请号202010207346.4G06F40/30(2020.01)(22)申请日2020.03.23(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人徐路罗壮何云龙(74)专利代理机构北京律智知识产权代理有限公司11438代理人王辉阚梓瑄(51)Int.Cl.G06F16/35(2019.01)G06F40/289(2020.01)G06F40/211(2020.01)权利要求书2页说明书14页附图6页(54)发明名称基于评论数据的文本分类方法及装置、设备和介质(57)摘要本公开是关于一种基于评论数据的文本分类方法及装置、设备以及介质，涉及自然语言处理技术领域，可以应用于对文本数据进行分类的场景。该基于评论数据的文本分类方法包括：获取评论数据，对评论数据进行文本预处理，以生成待处理分词数据；对待处理分词数据进行词向量化处理，以生成对应的词向量表示数据；将词向量表示数据输入至目标语言表示模型，以生成对应的句子向量表示数据；将句子向量表示数据分别输入至第一分类模型和第二分类模型，由第一分类模型确定评论数据是否属于问题文本数据，以及由第二分类模型确定评论数据对应的问题类型分类。本公开可以通过对评论数据的信息挖掘，筛选出有质量问题的评论文本以及质量问题的具体分类。CN111753082ACN111753082A权利要求书1/2页1.一种基于评论数据的文本分类方法，其特征在于，包括：获取评论数据，并对所述评论数据进行文本预处理，以生成待处理分词数据；对所述待处理分词数据进行词向量化处理，以生成对应的词向量表示数据；将所述词向量表示数据输入至目标语言表示模型，以生成对应的句子向量表示数据；将所述句子向量表示数据输入至第一分类模型，由所述第一分类模型确定所述评论数据是否属于问题文本数据；以及将所述句子向量表示数据输入至第二分类模型，由所述第二分类模型确定所述评论数据对应的问题类型分类。2.根据权利要求1所述的基于评论数据的文本分类方法，其特征在于，所述对所述评论数据进行文本预处理，以生成待处理分词数据，包括：对所述评论数据进行正则匹配处理，以生成正则文本数据；对所述正则文本数据进行分词切分处理，以生成字项分词数据；对所述字项分词数据进行词语修正处理，以生成所述待处理分词数据。3.根据权利要求2所述的基于评论数据的文本分类方法，其特征在于，所述对所述字项分词数据进行词语修正处理，包括：获取停用词参考表，并根据所述停用词参考表删除所述字项分词数据中的停用词；以及确定所述字项分词数据中待修改词语，并对所述待修改词语进行替换处理。4.根据权利要求1所述的基于评论数据的文本分类方法，其特征在于，所述对所述待处理分词数据进行词向量化处理，以生成对应的词向量表示数据，包括：获取分词词汇表，并构建所述分词词汇表对应的向量空间；根据所述向量空间对所述待处理分词数据进行词向量化处理，以得到所述评论数据的词向量表示数据。5.根据权利要求1所述的基于评论数据的文本分类方法，其特征在于，在所述将所述词向量表示数据输入至目标语言表示模型之前，所述方法还包括：获取初始语言表示模型以及初始训练数据；获取掩膜标识与预设比例，并按照所述预设比例从所述初始训练数据中随机选取目标数量个替换训练数据；根据所述掩膜标识对所述替换训练数据进行替换处理，以生成目标训练数据；将所述目标训练数据输入至初始语言表示模型，并获取所述初始语言表示模型的输出结果；根据所述输出结果对所述初始语言表示模型的参数进行调整，以得到所述目标语言表示模型。6.根据权利要求1所述的基于评论数据的文本分类方法，其特征在于，所述将所述句子向量表示数据输入至第一分类模型，由所述第一分类模型确定所述评论数据是否属于问题文本数据，包括：将所述句子向量表示数据输入至所述第一分类模型；由所述第一分类模型输出与所述句子向量表示数据对应的第一结果向量；根据所述第一结果向量确定所述评论数据是否属于问题文本数据。2CN111753082A权利要求书2/2页7.根据权利要求1所述的基于评论数据的文本分类方法，其特征在于，所述将所述句子向量表示数据输入至第二分类模型，由所述第二分类模型确定所述评论数据对应的问题类型分类，包括：将所述句子向量表示数据输入至所述第二分类模型；由所述第二分类模型输出与所述句子向量表示数据对应的第二结果向量；其中，所述第二结果向量包括多个置信度；获取与各所述置信度对应的置信度阈值，根据所述置信度与所述置信度阈值之间的大小关系确定所述评论数据对应的问题

相关资料

基于评论数据的文本分类方法及装置、设备和介质.pdf

本公开是关于一种基于评论数据的文本分类方法及装置、设备以及介质，涉及自然语言处理技术领域，可以应用于对文本数据进行分类的场景。该基于评论数据的文本分类方法包括：获取评论数据，对评论数据进行文本预处理，以生成待处理分词数据；对待处理分词数据进行词向量化处理，以生成对应的词向量表示数据；将词向量表示数据输入至目标语言表示模型，以生成对应的句子向量表示数据；将句子向量表示数据分别输入至第一分类模型和第二分类模型，由第一分类模型确定评论数据是否属于问题文本数据，以及由第二分类模型确定评论数据对应的问题类型分类。本

2023-06-14

925KB

基于深度学习的文本分类展示方法、装置、设备和介质.pdf

本公开的实施例公开了基于深度学习的文本分类展示方法、装置、设备和介质。该方法的一具体实施方式包括：响应于检测到用户作用于文本分类确认控件的选择操作，确定目标显示界面中的文本输入框对应的输入文本是否满足文本分类条件；响应于确定输入文本满足文本分类条件，将输入文本确定为初始文本；确定是否存在用户作用于向量分类方式选择控件的操作信息记录；响应于确定存在操作信息记录，根据操作信息记录，将初始文本输入至预先训练的文本分类模型，得到文本分类结果；在目标显示界面中的可视化展示区域对文本分类结果进行可视化展示。该实施方式

2023-07-23

967KB

数据分类方法、装置、设备和存储介质.pdf

本公开涉及一种数据分类方法、装置、设备和存储介质，包括：接收用户输入的文本数据；对文本数据进行编码，得到与文本数据对应的第一字向量、第一字位置向量和第一文本向量；对文本数据进行分词处理，得到一个或多个分词；响应于确定一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量；将第一字向量表示、第一字位置向量、第一文本向量、第二字向量和第二字位置向量进行拼接，得到拼接的向量；利用预设的目标分类模型，确定拼接的向量的第一特征表示

2023-07-24

1.1MB

基于多类型文本的自动分类方法、装置、设备和存储介质.pdf

本发明实施例公开了一种基于多类型文本的自动分类方法、装置、设备和存储介质。该方法包括：获取目标文本和所述目标文本的目标文本类型；将所述目标文本输入至预先训练好的神经网络模型以得到所述目标文本的第一文本主题，并根据所述目标文本类型确定所述目标文本的预设分类方案；将所述第一文本主题映射至所述预设分类方案以得到所述第一文本主题和预设分类方案的第一映射关系；根据所述第一映射关系将所述第一文本主题修改为匹配所述预设分类方案的第二文本主题；将所述第二文本主题输入至预先构建好的分类器模型以得到所述目标文本的目标分类类别

2023-07-24

1.6MB

基于用户评论数据处理方法、装置、设备及存储介质.pdf

本发明公开了基于用户评论数据处理方法、装置、设备及存储介质，所述方法包括：检测到爬取指令，控制获取产品在各电商平台的售后评论信息；基于预设的好评度的关键词，对获取的售后评论信息进行语义分析，得到与产品对应的综合评价反馈；根据与产品对应的综合评价反馈，建立与产品对应的好评度分析图表并输出。旨在解决现有技术中没有能够自动将商品链接中全部用户的文字评价内容提取和分析，并将其分析结果进行统计，制作为能够真实体现商品各方面优缺点的数据图表的方案的问题。为买家提供真实、直观的商品评价数据，为商品厂家提供高效、准确的用

2023-11-26

676KB