预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114936270A(43)申请公布日2022.08.23(21)申请号202210706851.2G06K9/62(2022.01)(22)申请日2022.06.21G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人广州伟宏智能科技有限公司地址510000广东省广州市天河区车陂启明大街93号B401房(72)发明人黄志春黄浩张定国李韧卢小锋丁杰(74)专利代理机构广州蓝晟专利代理事务所(普通合伙)44452专利代理师栾洋洋陈梓赫(51)Int.Cl.G06F16/33(2019.01)G06F16/332(2019.01)G06F16/35(2019.01)G06F16/36(2019.01)权利要求书2页说明书5页附图2页(54)发明名称一种基于BERT模型的智能问答实现方法(57)摘要本发明公开的属于智能问答技术领域,具体为一种基于BERT模型的智能问答实现方法,包括具体步骤如下:步骤一:构建BERT模型;步骤二:将文本数据中的问答用一个特殊标记[SEP]分开,第一个句子代表文本数据的问题部分,第二个句子代表文本数据的答案部分,且在第一个句子开头添加另一个特殊的标记[CLS],本发明通过采用基于BERT模型的核心算法实现智能问答,具有实现统一接口智能问答,减轻人工压力的作用,以及因模型层数较深,则会实现表达能力强,能更好理解用户输入,与此同时,还可以解决智能交互准确性和多功能性问题,并考虑问答上下文关系,加强多轮问答识别。CN114936270ACN114936270A权利要求书1/2页1.一种基于BERT模型的智能问答实现方法,其特征在于,包括具体步骤如下:步骤一:构建BERT模型;步骤二:将文本数据中的问答用一个特殊标记[SEP]分开,第一个句子代表文本数据的问题部分,第二个句子代表文本数据的答案部分,且在第一个句子开头添加另一个特殊的标记[CLS],在第二个句子的结尾添加之前的分隔标记[SEP],每个句子的文本信息都转化为字在字典中所对应的编号,其中,字典是利用文本数据来构建的一个字粒度字典,对于字典中不存在的字,将它视为字典中的[UNK],找到[UNK]在字典中所对应的编号,这样就得到了TokenEmbeddings;步骤三:根据TokenEmbeddings得到SegmentEmbeddings和PositionEmbeddings,其中,SegmentEmbeddings中的数字0表示文本数据的问题,数字1表示文本数据的答案,PositionEmbeddings中的数字表示字在句子中的位置,由于PositionEmbeddings中最多记录句子长度为512的位置信息,而因为在生成TokenEmbeddings的过程中,特殊标记占用了3个位置,所以PositionEmbeddings最多记录句子长度为509的位置信息;步骤四:通过步骤二和步骤三,文本数据可以通过BERT模型的输入层得到TokenEmbeddings、SegmentEmbeddings和PositionEmbeddings,再将三者相加,最终得到输入层的输出向量;步骤五:通过输入层后,进入到BERT模型的隐藏层,每个隐藏层由Transformer构成,每个Transformer又由注意力层、中层和输出层构成;步骤六:注意力层是Transformer的核心部分,首先输入层的输出向量进入到Transformer的注意力层,在注意力层中,使用的注意力机制为12heads的Multi‑HeadAttention,对于每一个head,先通过定义的query、key和value的权重矩阵来求对应的query、key和value向量,再将query与key的向量相乘,之后放缩,得到初步的注意力机制权重矩阵,在数据预处理过程中,因为输入模型的序列长度不同,对序列进行了截断和补齐操作,还有在模型随机MASK的部分,在注意力计算的时候应该要消除其影响,引入了一个input_mask变量,最终注意力机制的权重矩阵由初步的注意力机制权重矩阵与input_mask相加,经过softmax得到,最后将权重矩阵与value向量相乘得到注意力分数,其中,将上一层隐藏层的输出与该层注意力分数相加才是注意力层的输出,第一层隐藏层的输出是与输入层的输出有关;步骤七:中间层是连接Transformer中的注意力层和输出层,将注意力层的输出接入一个全连接层,再通过激活函数GELU得到中间层的输出;步骤八:输出层是对中间层的输出做了全连接、Dropout和Norm操作,中间层得到的结果传入到输出层,首先经过全连接层,然后经过Dropout层,因为当隐藏层的数量增加时,模型出现过拟合的概率也相应增