预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113806490A(43)申请公布日2021.12.17(21)申请号202111132324.7(22)申请日2021.09.27(71)申请人中国人民解放军国防科技大学地址410073湖南省长沙市开福区德雅路109号(72)发明人张雨邵堃杨俊安刘辉呼鹏江王健(74)专利代理机构南京理工大学专利中心32203代理人薛云燕(51)Int.Cl.G06F16/33(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于BERT采样的文本通用触发器生成系统和方法(57)摘要本发明公开了一种基于BERT采样的文本通用触发器生成系统和方法,设置初始单词序列长度m及批次大小n,将初始单词序列复制n份得到n个单词序列,在其上随机选择第i个位置,将初始单词序列输入到BERT语言模型中,获得第i个位置单词的概率分布;采样一个单词y,将第i个位置的原始掩码符号替换为单词y,得到一批初始触发词序列,并连接到数据测试集的所有样本上,输入到目标模型进行测试;将测试结果传输到BERT采样模块,并调整单词分布概率,然后采样获得候选单词;继续将候选单词在除第i个位置外的其他位置上进行替换,直到目标模型的预测错误率达到设定值阈值以上,输出触发器序列。本发明具有效率高、质量好的优点。CN113806490ACN113806490A权利要求书1/2页1.一种基于BERT采样的文本通用触发器生成系统,其特征在于,包括输入模块(1)、触发器生成模块(2)、连接模块(3)、输出模块(4)和BERT采样模块(5);输入模块(1)的输出端接入触发器生成模块(2),触发器生成模块(2)接入连接模块(3),连接模块(3)接入输出模块(4),输出模块(4)与BERT采样模块(5)连接,BERT采样模块(5)再接入触发器生成模块(2);输入模块(1)设置初始输入单词长度;触发器生成模块(2)将随机挑选一个单词位置,并根据BERT采样模块(5)的单词分布填充所挑选位置的单词;连接模块(3)将生成的触发器与测试样本一一相连,然后送入输出模块(4);输出模块(4)则由目标模型识别添加了触发器的测试样本,并输出测试结果;BERT采样模块(5)根据输出模块(4)的测试结果调整单词分布概率。2.一种基于BERT采样的文本通用触发器生成方法,其特征在于,步骤如下:步骤1,在输入模块(1)中设置初始单词序列长度m及批次大小n,初始单词序列由m个掩码符号组成,即([MASK],…,[MASK])m,并按照批次大小将初始单词序列复制n份,得到n个单词序列;分别在这n个单词序列上随机选择第i个位置,然后将初始单词序列输入到BERT语言模型中,获得第i个位置单词的概率分布,记为pt+1;从pt+1中采样一个单词y,将第i个位置的原始掩码符号[MASK]替换为单词y,从而得到一批初始触发词序列;步骤2,将得到的初始触发词序列连接到数据测试集的所有样本上,然后输入到目标模型即Bi‑LSTM模型上进行测试,得到Bi‑LSTM模型的预测结果;步骤3,将目标模型的预测结果传输到BERT采样模块(5),并调整单词分布概率,根据调整后的单词分布进行采样,获得候选单词;步骤4,除了在步骤1中所选择的第i个位置外,继续将候选单词在除第i个位置以外的其他位置上进行替换;步骤5,重复迭代步骤2~步骤4,直到Bi‑LSTM模型的预测错误率达到设定值阈值以上,输出触发器序列。3.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法,其特征在于,步骤3所述的调整单词分布概率,具体步骤如下:(2.1)输入是步骤1中所述的初始单词序列,将其初始化为一个全掩码序列,初始序列其中均为[MASK];代表第0时刻位置1到位置T的单词序列,[MASK]为一个掩码符号;(2.2)随机从[1,2,…,m]抽取一个位置i,根据下式计算单词序列在BERT词汇表上的单词分布概率Pt+1;其中m为单词序列的长度,表示t时刻第i‑1个位置的单词,2CN113806490A权利要求书2/2页表示当t时刻第i个位置的单词替换成y后的概率;表示是当t时刻第i个位置的单词被替换成y后的全概率;(3.2)从单词分布Pt+1中采样得到一个提议的替换单词根据Bi‑LSTM模型的预测错误率来决定是使用提议的替换单词还是保留前一次迭代中的单词4.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法,其特征在于,步骤1中,所述初始序列长度m=5,批次大小n=50。5.根据权利要求2所述的基于BERT采样的文本通用触发器生成方法,其特征在于,步骤5中,直到Bi‑LSTM模型的预测错误率设置阈值为50%