一种基于ALBERT和LDA的跨域情感分类方法-豆柴文库

一种基于ALBERT和LDA的跨域情感分类方法.pdf

2023-07-24

10金币

469KB

8页

志信****pp

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114238627A(43)申请公布日2022.03.25(21)申请号202111382116.2(22)申请日2021.11.22(71)申请人西北工业大学地址710072陕西省西安市友谊西路127号(72)发明人郑江滨曹宏业(74)专利代理机构西北工业大学专利中心61204代理人金凤(51)Int.Cl.G06F16/35(2019.01)G06F40/289(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书4页附图1页(54)发明名称一种基于ALBERT和LDA的跨域情感分类方法(57)摘要本发明公开了一种基于ALBERT和LDA的跨域情感分类方法，首先进行模型训练与数据的预处理，使用训练数据集对ALBERT模型进行训练，得到用于对目标领域数据检测的ALBERT模型，同时，使用目标领域的数据集进行主题模型训练，得到用于文本主题信息提取的LDA模型；随后针对输入的文本信息进行处理，使用ALBERT对该数据进行处理，得到处理后的向量，同时将该文本输入至LDA模型进行主题信息检测，得到文本主题信息，将处理后的向量与文本主题信息进行结合，输入到一个自适应分类器之中进行情感分类，最终输出情感分类标签。本发明实现了多领域文本的分类，避免了扩充目标领域训练数据集的问题，提升了模型的训练时间，减少了空间复杂度。CN114238627ACN114238627A权利要求书1/2页1.一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，包括如下步骤：步骤1：模型训练与数据预处理；处理训练数据集，对训练数据集中的数据进行分词和去除停用词操作；将处理后的训练数据集用于ALBERT模型的训练，得到用于对目标领域数据检测的ALBERT模型；使用Amazon提供的无标记训练数据集，进行主题模型训练，训练得到用于文本主题信息提取的LDA模型；步骤2：对待检测的输入文本，首先进行分词处理，处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取；步骤2‑1：ALBERT模型将[SEP]作为分隔符，对输入的分词后的输入文本进分隔处理，特殊字符[CLS]用于下游的分类任务，使用ALBERT最后一层输入的C向量作为句子对的表示：C＝ALBERT(In)∈Rd(1)其中，In表示输入文本，d表示d维向量；步骤2‑2：使用LDA模型对输入文本进行主题信息提取；将输入文本数据按词划分成式(2)所示形式：In＝[t1,...,tN](2)式中，t1,...,tN分别表示输入文本划分后的各项；将划分后的数据项，分别输入至LDA模型之中，计算得到输入文本的主题信息，如式(3)所示：tT＝LDA(t1,...,tN)∈R(3)其中，t表示t维向量；步骤2‑3：将ALBERT模型的输出向量C与主题信息T进行组合，得到组合后的数据项F，如式(4)所示；F＝[C；T]∈Rd+t(4)步骤3：情感分类；步骤3‑1：自适应分类器构建；采用自适应目标函数学习权重，其目标函数表示为式(5)：式中，λi表示平衡因子，Ti表示情感分类子任务，i表示第i个子任务；通过自适应动态调节，对权重值λ进行调节，定义fλ(x,y)为样本对(x,y)在情感分类输出，定义概率向量为：P(y|fλ(x))＝softmax(fλ(x))(6)其中，fλ(x)表示情感分类函数，softmax(.)表示归一化函数；目标函数的似然定义如下：λλλP(y1,...,yn|f(x))＝P(y1|f(x))...P(yn|f(x))(7)其中，y1,...,yn分别表示子任务；步骤3‑2：通过多目标似然函数计算得到自适应的权重值λ，将组合数据项F输入至softmax归一化函数之中，得到：2CN114238627A权利要求书2/2页P＝softmax(Fλ)(8)通过计算情感分类标签的概率，将概率最大的标签作为目标数据标签，从而实现跨域的情感分类。2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，所述ALBERT模型的参数定义如表1：表1ALBERT模型参数定义：3CN114238627A说明书1/4页一种基于ALBERT和LDA的跨域情感分类方法技术领域[0001]本发明属于自然语言技术领域，具体涉及一种跨域情感分类方法。背景技术[0002]大规模语言模型已广泛应用于自然语言处理的多类应用之中，语言模型在语义分析，情感分类、问答系统以及机器翻译等领域展现了强大的性能，但是，当目标领域数据与模型的训练数据存在差异时，大规模语言模型的检测效果将会下降，增加目标领域训练数据是一种改进方式，但是手动标记目标领域数据，需要消耗大量的人力成

相关资料

一种基于ALBERT和LDA的跨域情感分类方法.pdf

本发明公开了一种基于ALBERT和LDA的跨域情感分类方法，首先进行模型训练与数据的预处理，使用训练数据集对ALBERT模型进行训练，得到用于对目标领域数据检测的ALBERT模型，同时，使用目标领域的数据集进行主题模型训练，得到用于文本主题信息提取的LDA模型；随后针对输入的文本信息进行处理，使用ALBERT对该数据进行处理，得到处理后的向量，同时将该文本输入至LDA模型进行主题信息检测，得到文本主题信息，将处理后的向量与文本主题信息进行结合，输入到一个自适应分类器之中进行情感分类，最终输出情感分类标签。

2023-07-24

469KB

一种基于注意力机制与强化学习的跨域情感分类方法.pdf

为解决不同领域标记数据缺失下的情感分类的问题，本发明提出了一种基于注意力机制与强化学习的跨域情感分类方法。首先，针对源域标记数据以及目标域无标记数据进行预处理，随后训练大规模语言模型BERT，并借助于注意力机制进行数据项中情感特征的提取。接着，基于强化学习思路应用随机策略进行特征选择，并根据计算得到的延迟奖励进行策略优化。最终，使用最优的情感分类策略实现跨域情感分类。本发明提升了源域中标记数据的使用率，并有效实现了跨域情感分类，减少了人工标记的成本。

2023-07-21

288KB

一种跨域图像分类方法.pdf

本发明公开一种跨域图像分类方法，该方法用视觉特征提取器提取待分类目标域图像的初始视觉特征，并利用初始视觉特征构建领域对齐损失函数、类别对齐损失函数和结构对齐损失函数，再构建分类器，最后利用视觉特征提取器和分类器获得待分类的目标域图像的分类结果。该方案利用领域对齐损失函数、类别对齐损失函数和结构对齐损失函数来减小待分类目标域图像各个领域之间的差异，提高对跨域图像的分类精度。

2023-07-25

853KB

一种基于原型对比自训练的跨域图像分类方法.pdf

本发明公开了一种基于原型对比自训练的跨域图像分类方法。本发明包括如下步骤：1)通过域不变特征学习方法，获得跨域图像分类模型；2)利用当前最新的跨域图像分类模型预测目标域上图像的伪标签，使用每个批次的数据不断更新每个类别的原型并计算对比损失；3)将分类损失和对比损失结合构成目标函数进行训练，优化更新特征抽取网络与跨域图像分类网络，再回到步骤2)循环执行。本发明将原型对比学习融入到自训练中，通过将目标域中无标签图像数据的分布结构编码进自训练框架中，并在自学习的过程中完全放弃掉源数据，有效解决了域不变表征学习与

2023-06-05

1.6MB

基于嵌入学习的近重复视频检索和跨域情感分类研究的开题报告.docx

基于嵌入学习的近重复视频检索和跨域情感分类研究的开题报告一、研究背景和目的随着互联网视频的快速发展，视频数量呈爆炸式增长。虽然视频数量的增加给用户带来了更多的选择，但是也对视频检索和推荐的技术提出了更高的要求。其中，近重复视频检索和跨域情感分类是视频内容分析的两个重要研究方向。近重复视频检索是指根据视频内容相似度，找出相似或相同的视频，通常用于版权保护、视频剪辑和视频推荐等应用。跨域情感分类是指将一种领域的情感分类模型泛化到其他领域，通常用于跨语言和跨领域的情感分析等应用。这两个问题在实际应用中十分常见，

2024-09-17

11KB