一种基于BERT采样的文本通用触发器生成系统和方法-豆柴文库

一种基于BERT采样的文本通用触发器生成系统和方法.pdf

2023-07-25

10金币

831KB

11页

是你****嘉嘉

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113806490A(43)申请公布日2021.12.17(21)申请号202111132324.7(22)申请日2021.09.27(71)申请人中国人民解放军国防科技大学地址410073湖南省长沙市开福区德雅路109号(72)发明人张雨邵堃杨俊安刘辉呼鹏江王健(74)专利代理机构南京理工大学专利中心32203代理人薛云燕(51)Int.Cl.G06F16/33(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于BERT采样的文本通用触发器生成系统和方法(57)摘要本发明公开了一种基于BERT采样的文本通用触发器生成系统和方法，设置初始单词序列长度m及批次大小n，将初始单词序列复制n份得到n个单词序列，在其上随机选择第i个位置，将初始单词序列输入到BERT语言模型中，获得第i个位置单词的概率分布；采样一个单词y，将第i个位置的原始掩码符号替换为单词y，得到一批初始触发词序列，并连接到数据测试集的所有样本上，输入到目标模型进行测试；将测试结果传输到BERT采样模块，并调整单词分布概率，然后采样获得候选单词；继续将候选单词在除第i个位置外的其他位置上进行替换，直到目标模型的预测错误率达到设定值阈值以上，输出触发器序列。本发明具有效率高、质量好的优点。CN113806490ACN113806490A权利要求书1/2页1.一种基于BERT采样的文本通用触发器生成系统，其特征在于，包括输入模块(1)、触发器生成模块(2)、连接模块(3)、输出模块(4)和BERT采样模块(5)；输入模块(1)的输出端接入触发器生成模块(2)，触发器生成模块(2)接入连接模块(3)，连接模块(3)接入输出模块(4)，输出模块(4)与BERT采样模块(5)连接，BERT采样模块(5)再接入触发器生成模块(2)；输入模块(1)设置初始输入单词长度；触发器生成模块(2)将随机挑选一个单词位置，并根据BERT采样模块(5)的单词分布填充所挑选位置的单词；连接模块(3)将生成的触发器与测试样本一一相连，然后送入输出模块(4)；输出模块(4)则由目标模型识别添加了触发器的测试样本，并输出测试结果；BERT采样模块(5)根据输出模块(4)的测试结果调整单词分布概率。2.一种基于BERT采样的文本通用触发器生成方法，其特征在于，步骤如下：步骤1，在输入模块(1)中设置初始单词序列长度m及批次大小n，初始单词序列由m个掩码符号组成，即([MASK],…,[MASK])m，并按照批次大小将初始单词序列复制n份，得到n个单词序列；分别在这n个单词序列上随机选择第i个位置，然后将初始单词序列输入到BERT语言模型中，获得第i个位置单词的概率分布，记为pt+1；从pt+1中采样一个单词y，将第i个位置的原始掩码符号[MASK]替换为单词y，从而得到一批初始触发词序列；步骤2，将得到的初始触发词序列连接到数据测试集的所有样本上，然后输入到目标模型即Bi‑LSTM模型上进行测试，得到Bi‑LSTM模型的预测结果；步骤3，将目标模型的预测结果传输到BERT采样模块(5)，并调整单词分布概率，根据调整后的单词分布进行采样，获得候选单词；步骤4，除了在步骤1中所选择的第i个位置外，继续将候选单词在除第i个位置以外的其他位置上进行替换；步骤5，重复迭代步骤2～步骤4，直到Bi‑LSTM模型的预测错误率达到设定值阈值以上，输出触发器序列。3.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法，其特征在于，步骤3所述的调整单词分布概率，具体步骤如下：(2.1)输入是步骤1中所述的初始单词序列，将其初始化为一个全掩码序列，初始序列其中均为[MASK]；代表第0时刻位置1到位置T的单词序列，[MASK]为一个掩码符号；(2.2)随机从[1,2，…,m]抽取一个位置i，根据下式计算单词序列在BERT词汇表上的单词分布概率Pt+1；其中m为单词序列的长度，表示t时刻第i‑1个位置的单词，2CN113806490A权利要求书2/2页表示当t时刻第i个位置的单词替换成y后的概率；表示是当t时刻第i个位置的单词被替换成y后的全概率；(3.2)从单词分布Pt+1中采样得到一个提议的替换单词根据Bi‑LSTM模型的预测错误率来决定是使用提议的替换单词还是保留前一次迭代中的单词4.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法，其特征在于，步骤1中，所述初始序列长度m＝5，批次大小n＝50。5.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法，其特征在于，步骤5中，直到Bi‑LSTM模型的预测错误率设置阈值为50％

相关资料

一种基于BERT采样的文本通用触发器生成系统和方法.pdf

本发明公开了一种基于BERT采样的文本通用触发器生成系统和方法，设置初始单词序列长度m及批次大小n，将初始单词序列复制n份得到n个单词序列，在其上随机选择第i个位置，将初始单词序列输入到BERT语言模型中，获得第i个位置单词的概率分布；采样一个单词y，将第i个位置的原始掩码符号替换为单词y，得到一批初始触发词序列，并连接到数据测试集的所有样本上，输入到目标模型进行测试；将测试结果传输到BERT采样模块，并调整单词分布概率，然后采样获得候选单词；继续将候选单词在除第i个位置外的其他位置上进行替换，直到目标模

2023-07-25

831KB

一种基于BERT的中文ASR输出文本修复方法及系统.pdf

本发明提出了一种基于BERT的中文ASR文本修复方法及系统，该系统包含：中文标点符号预测模型和中文纠错模型。中文标点预测模型基于BERT进行了两方面的改进：使用RoBERTa模型替换基础BERT模型，通过改变预训练任务中的掩码策略来提高模型的效率；通过提取字音和字形两个嵌入给模型提供更多的中文额外信息。通过这两个方面的改动提出了目前较为完整的中文标点符号预测模型。中文纠错模型使用PLOME预训练模型，该模型的特点也是结合了中文额外特征来提高模型对中文的理解能力。通过简单的结合，本发明得到了一个端到端的中文

2023-07-21

588KB

基于采样的颜色信息生成和传输图像序列的系统和方法.pdf

在一个实施例中，用于从稀疏数据生成完整帧的方法可以分别访问与帧的序列相关联的样本数据集。每个样本数据集可以包括相关联的帧的不完整像素信息。该系统可以使用第一机器学习模型基于样本数据集来生成帧序列，每个帧具有完整像素信息。第一机器学习模型被配置为保留与生成的帧相关联的时空表示。然后，该系统可以访问下一个样本数据集，该下一个样本数据集包括帧序列之后的下一个帧的不完整像素信息。该系统可以使用第一机器学习模型，基于下一个样本数据集生成下一个帧。该下一个帧具有完整像素信息，该完整像素信息包括该下一个样本数据集的不完

2023-11-09

2.8MB

基于BERT和双分支网络的胃镜文本分类系统.pdf

本发明属于自然语言处理领域，提供一种基于BERT和双分支网络的胃镜文本分类系统，获取待分类的胃镜文本数据；从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；基于文本单元的特征向量集合，利用预先训练

2023-11-05

430KB

一种基于领域BERT模型的服务文本分类方法.pdf

本发明属于网络服务文本技术领域,具体地涉及一种基于领域BERT模型的服务文本分类方法。包括:步骤1:采用TF?IDF算法从服务文本语料中提取领域词汇;步骤2:在步骤1的基础上,建立BERT?BiLSTM模型,将步骤1提取的领域词汇输入进BERT?BiLSTM模型的BERT词表后,将服务文本语料输入BERT?BiLSTM模型进行训练,实现服务文本分类;步骤3:根据步骤2的服务文本语料特性和分类结果,选择最佳的损失函数以均衡数据集。为了证明所提出方法的有效性,在互联网获取的真实数据集上进行了大量对比试验,其实

2023-06-07

1.3MB