一种用于文本多分类任务的在线主动机器学习方法-豆柴文库

一种用于文本多分类任务的在线主动机器学习方法.pdf

2023-08-25

10金币

1MB

11页

小宏****aa

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111949794A(43)申请公布日2020.11.17(21)申请号202010817161.5(22)申请日2020.08.14(71)申请人扬州大学地址225000江苏省扬州市开发区大学南路88号(72)发明人翟婷婷龚楷伦(74)专利代理机构南京苏科专利代理有限责任公司32102代理人陈栋智董旭东(51)Int.Cl.G06F16/35(2019.01)G06K9/62(2006.01)G06N20/00(2019.01)权利要求书2页说明书6页附图2页(54)发明名称一种用于文本多分类任务的在线主动机器学习方法(57)摘要本发明公开了一种用于文本多分类任务的在线主动机器学习方法，包括以下步骤：1)在第t轮，接收到本轮的文档经特征提取后得到的特征向量xt；2)使用最新的多分类器Wt对xt进行预测，得到多分类预测结果3)在线预测结束后，进入采样决策程序：判断是否获取xt的真实类标签yt；记Zt为采样决策变量，如果Zt＝1，则获取yt，得到完整的数据信息(xt，yt)；如果Zt＝0，则不获取yt，也不更新当前的多分类器，直接进入步骤5)；4)得到完整的数据信息(xt，yt)后，进入在线更新程序，更新当前的多分类器Wt，得到下一轮的多分类器Wt+1；5)回到步骤1)，进行第t+1轮的文本特征向量的提取；本发明在同等的类标签采样比例下，能取得更高的在线多分类准确率。CN111949794ACN111949794A权利要求书1/2页1.一种用于文本多分类任务的在线主动机器学习方法，其特征在于，包括以下步骤：1)在第t轮，接收到本轮的文档经特征提取后得到的特征向量2)使用最新的多分类器对xt进行预测，得到多分类预测结果：其中，表示第t轮针对第i类的分类器，C≥2为文本分类的总类数；3)在线预测结束后，进入采样决策程序：判断是否获取xt的真实类标签yt∈{1,2,…,C}；记Zt为采样决策变量，如果Zt＝1，则获取yt，得到完整的数据信息(xt,yt)；如果Zt＝0，则不获取yt，也不更新当前的多分类器，直接进入步骤5)；4)得到完整的数据信息(xt,yt)后，进入在线更新程序，更新当前的多分类器Wt，得到下一轮的多分类器Wt+1；5)回到步骤1)，进行第t+1轮的文本特征向量的提取。2.根据权利要求1所述的一种用于文本多分类任务的在线主动机器学习方法，其特征在于，步骤4)中多分类器Wt的更新方法具体为：4-1)在第t轮，本程序接收到完整的文本数据信息(xt,yt)；(1)(2)(C)(i)4-2)分别计算gt,gt,…,gt，其中，对于任意的i∈{1,2,…,C}，gt是多分类合页(i)损失函数ft(W)关于w在Wt处的偏导数，即且损失函数的表达式为：4-3)分别计算矩阵其中，对于任意的i∈{1,2,…,C}，矩阵是将第1时刻到当前时刻所获得的所有针对第i类分类器的偏导数都存储起来；4-4)根据这些矩阵，分别计算特征频度向量其中，对于任意的i∈{1,2,…,C}，任意的j∈{1,2,…,d}，d维向量的第j个元素为其保存了在更新第i类的分类器时第j个特征出现的频度信息，计算公式为而表示矩阵的第j行的行向量，||·||2为向量的二范数；4-5)根据特征频度向量，分别计算对角矩阵其中，对于任意的i∈{1,2,…,C}，符号表示将向量的每个元素依次放在对角矩阵的主对角线上，δ是一个预定义的常数，I是单位阵；4-6)从如下两种更新规则中选取一种来对多分类器进行在线更新，从而得到新的多分类器Wt+1：(a)多分类对偶平均更新规则(Multi-classDualAveraging,简称MDA)：2CN111949794A权利要求书2/2页(b)多分类镜像下降更新规则(Multi-classMirrorDescent,简称MMD)：其中，η是学习步长；通过上述任意规则得到每类的分类器后，则新的多分类器3.根据权利要求2所述的一种用于文本多分类任务的在线主动机器学习方法，其特征在于，步骤3)中采样决策程序实现步骤如下：3-1)在第t轮，获取当前文本的特征向量xt；3-2)计算：其中，表示矩阵的逆矩阵，at∈(0,1]；3-3)如果qt＞0，则从参数为的伯努利分布中提取一个随机变量Zt∈{0,1}，其中b＞0是采样参数，用于控制采样比例；如果qt≤0，则令Zt＝1；3-4)如果Zt＝1，则获取xt的真实类标签yt，得到完整的文本信息(xt,yt)；如果Zt＝0，则不获取yt。4.根据权利要求3所述的一种用于文本多分类任务的在线主动机器学习方法，其特征在于，步骤3-2)中根据at取值的不同情况，可以将该采样决策程序分为两个变种：T(a)对于任意的t，取at＝1/max{1,

相关资料

一种用于文本多分类任务的在线主动机器学习方法.pdf

本发明公开了一种用于文本多分类任务的在线主动机器学习方法，包括以下步骤：1)在第t轮，接收到本轮的文档经特征提取后得到的特征向量x

2023-08-25

1MB

用于文本多标签分类任务的基于间隔分布的在线机器学习方法.pdf

本发明公开了机器学习领域内的一种基于间隔分布的在线机器学习方法,包括以下步骤:1)在第t轮,接收到本轮文档的特征向量<base:Imagehe=@77@wi=@198@file=@DDA0003762887680000011.JPG@imgContent=@drawing@imgFormat=@JPEG@orientation=@portrait@inline=@yes@/>2)进入多标签预测程序;3)预测结束后,接收到x<base:Sub>t</base:Sub>的真实相关标签集<base:Imageh

2023-05-09

1.2MB

用于恶意URL检测的在线主动机器学习方法.pdf

本发明公开了机器学习和网络信息安全技术领域内的一种用于恶意URL检测的在线主动机器学习方法，包括以下步骤：步骤1）当互联网用户要访问一个URL时，利用自动特征提取器，对该URL进行特征提取，构成该URL的特征向量；步骤2）使用分类器对特征向量进行在线预测，判断是否为恶意；步骤3）在线预测结束后，进入标记决策阶段，判断是否对当前的URL进行标记，得到决策变量；步骤4）获得完整的URL数据信息后，利用在线模型更新程序修正当前的分类器，得到最新的分类器；步骤5）回到步骤1），等待用户浏览器发出新一轮URL请求，

2023-08-27

963KB

用于分类的多-多面体机器.pdf

一种生成用于机器学习的分类器引擎的计算机实现的方法，包括接收数据点集。将半监督k‑均值过程应用于来自每个类的数据点集。使用半监督k‑均值过程将类中的数据点集集群成多个数据点集群。针对来自所有类的集群中的一个或多个构建多‑多面体。在来自所有类的每对集群上运行支持向量机(SVM)过程。针对被集群的类确定分离超平面。基于通过超平面的分离为每个集群确定标记。

2023-06-03

1.1MB

一种用于在线客服系统的主动交互数据处理方法.pdf

本发明涉及一种用于在线客服系统的主动交互数据处理方法，包括以下步骤：A.客服终端登录客服服务器；B.实时检测是否有用户终端发送的留言，若是，则执行步骤C，若否，则继续检测；C.检测该用户终端是否在线，若是，则执行步骤D，若否，则执行步骤E；D.向该用户终端接收或发送交互信息；E.客服终端向该用户终端进行离线回复；F.用户终端收到离线回复后，与客服服务器建立连接，并执行步骤D。与现有技术相比，本发明从根本上解决了现有在线客服系统功能单一、不便于大范围推广的难题；并且本发明不仅可在WEB页面使用，更可在手机上

2023-11-17

140KB