一种基于BERT的中文ASR输出文本修复方法及系统-豆柴文库

一种基于BERT的中文ASR输出文本修复方法及系统.pdf

2023-07-21

10金币

588KB

14页

山柳****魔王

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115034208A(43)申请公布日2022.09.09(21)申请号202210434469.0(22)申请日2022.04.24(71)申请人上海大学地址200436上海市宝山区上大路99号(72)发明人武星张源(74)专利代理机构上海申汇专利代理有限公司31001专利代理师翁若莹柏子雵(51)Int.Cl.G06F40/232(2020.01)G06F40/289(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书8页附图2页(54)发明名称一种基于BERT的中文ASR输出文本修复方法及系统(57)摘要本发明提出了一种基于BERT的中文ASR文本修复方法及系统，该系统包含：中文标点符号预测模型和中文纠错模型。中文标点预测模型基于BERT进行了两方面的改进：使用RoBERTa模型替换基础BERT模型，通过改变预训练任务中的掩码策略来提高模型的效率；通过提取字音和字形两个嵌入给模型提供更多的中文额外信息。通过这两个方面的改动提出了目前较为完整的中文标点符号预测模型。中文纠错模型使用PLOME预训练模型，该模型的特点也是结合了中文额外特征来提高模型对中文的理解能力。通过简单的结合，本发明得到了一个端到端的中文ASR文本修复系统，其首次结合了中文标点符号预测以及中文纠错两个任务，对错误的文本进行两个角度的纠错，可以显著地提高文本的使用效率。CN115034208ACN115034208A权利要求书1/3页1.一种基于BERT的中文ASR输出文本修复系统，其特征在于，包括中文标点符号预测模型和中文纠错模型，其中：中文标点符号预测模型包括BERT中文分词器、RoBERTa预训练模型、ChineseBERT预训练模型、Transformer网络和分类模块，其中：由BERT中文分词器对输入的中文文本中的每一个中文词进行编码从而获得词向量；RoBERTa预训练模型将词向量编码成通过预训练任务得到的字编码向量，即获得字编码嵌入；ChineseBERT预训练模型提取词向量的字音特征和字形特征，得到拼音嵌入和字形嵌入；Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习，整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度；分类模块由两层线性层和两层Dropout层来进行叠加，通过分类模型预测每一个字符编码对于四个分类的概率，输出每个字的之后最大概率的标点符号的类别，其中，四个分类的标签分别为空、逗号、句号和问号；中文标点符号预测模型输出的带有标点符号的句子被输入中文纠错模型，中文纠错模型采用PLOME模型。2.如权利要求1所述的一种基于BERT的中文ASR输出文本修复系统，其特征在于，所述文标点符号预测模型和所述中文纠错模型被封装成一个端到端的中文文本修复模型。3.如权利要求1所述的一种基于BERT的中文ASR输出文本修复系统，其特征在于，所述RoBERTa预训练模型采用的掩码策略包括0％掩码、15％掩码以及30％掩码。4.如权利要求1所述的一种基于BERT的中文ASR输出文本修复系统，其特征在于，所述ChineseBERT预训练模型采用以下方法获得拼音嵌入：通过开源工具获取每个字的拼音，将每个字的拼音通过一层宽度为二的CNN网络进行卷积，然后通过最大池化层获得拼音嵌入；所述ChineseBERT预训练模型采用以下方法获得字形嵌入：使用三种中文字体的字形图片，每一个字形图片的大小为24*24，每个字的三种中文字体组合成24*24*3的张量，然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。5.如权利要求1所述的一种基于BERT的中文ASR输出文本修复系统，其特征在于，所述Transformer网络的注意力机制的核心公式如下式所示：式中：Q是查询矩阵；K是注意力机制关注的信息；V是原始输入值通过线性变化之后的T矩阵，用来保存输入特征，Q与K的转置K进行点乘计算出对于Q在V上的注意力权重；dk是多头注意力机制算法中的head大小。6.如权利要求1所述的一种基于BERT的中文ASR输出文本修复系统，其特征在于，在所述中文纠错模型中，PLOME模型的输入由字符嵌入层、位置嵌入层、字音嵌入层和字形嵌入层构成；PLOME模型使用分词模块基于带有标点符号的句子构建字符嵌入和位置嵌入，2CN115034208A权利要求书2/3页PLOME模型使用门控循环神经网络编码器来构建字音嵌入和字形嵌入；PLOME模型将字符嵌入层、位置编码嵌入层、字音嵌入层和字形嵌入层行混淆整合，整合好的向量输入到基于Transformer网络的中文纠错网络中，得到纠错后的文本。7.一种基于BERT的中

相关资料

一种基于BERT的中文ASR输出文本修复方法及系统.pdf

本发明提出了一种基于BERT的中文ASR文本修复方法及系统，该系统包含：中文标点符号预测模型和中文纠错模型。中文标点预测模型基于BERT进行了两方面的改进：使用RoBERTa模型替换基础BERT模型，通过改变预训练任务中的掩码策略来提高模型的效率；通过提取字音和字形两个嵌入给模型提供更多的中文额外信息。通过这两个方面的改动提出了目前较为完整的中文标点符号预测模型。中文纠错模型使用PLOME预训练模型，该模型的特点也是结合了中文额外特征来提高模型对中文的理解能力。通过简单的结合，本发明得到了一个端到端的中文

2023-07-21

588KB

基于BERT的中文医疗问答系统.pptx

汇报人：CONTENTSPARTONEBERT模型的基本原理BERT模型在自然语言处理领域的应用BERT模型的优势与局限性PARTTWO中文医疗问答系统的定义与功能中文医疗问答系统的研究现状中文医疗问答系统的挑战与机遇PARTTHREE系统架构与模块介绍预训练模型的选择与优化针对医疗领域的特殊处理系统实现流程与技术细节PARTFOUR实验数据集介绍实验设置与评估指标实验结果展示结果分析与应用前景探讨PARTFIVE基于BERT的中文医疗问答系统的优势系统存在的不足与局限性对未来研究的建议与展望PARTSI

2024-10-01

413KB

基于BERT的中文地址分词方法.pptx

汇报人：目录PARTONEPARTTWOBERT模型的基本原理BERT模型在中文分词上的应用BERT模型的优势与局限性PARTTHREE中文地址的复杂性分词的难点与挑战现有分词方法的不足PARTFOUR方法概述数据预处理与标注BERT模型训练与优化分词效果评估与改进PARTFIVE实验设置与数据集实验结果对比与分析分词效果的可视化展示性能优化与未来工作PARTSIX在地址匹配与标准化中的应用在智能物流与配送中的应用在智能客服与地址解析中的应用未来研究方向与挑战THANKYOU

2024-10-04

1MB

一种基于BERT采样的文本通用触发器生成系统和方法.pdf

本发明公开了一种基于BERT采样的文本通用触发器生成系统和方法，设置初始单词序列长度m及批次大小n，将初始单词序列复制n份得到n个单词序列，在其上随机选择第i个位置，将初始单词序列输入到BERT语言模型中，获得第i个位置单词的概率分布；采样一个单词y，将第i个位置的原始掩码符号替换为单词y，得到一批初始触发词序列，并连接到数据测试集的所有样本上，输入到目标模型进行测试；将测试结果传输到BERT采样模块，并调整单词分布概率，然后采样获得候选单词；继续将候选单词在除第i个位置外的其他位置上进行替换，直到目标模

2023-07-25

831KB

一种基于领域BERT模型的服务文本分类方法.pdf

本发明属于网络服务文本技术领域,具体地涉及一种基于领域BERT模型的服务文本分类方法。包括:步骤1:采用TF?IDF算法从服务文本语料中提取领域词汇;步骤2:在步骤1的基础上,建立BERT?BiLSTM模型,将步骤1提取的领域词汇输入进BERT?BiLSTM模型的BERT词表后,将服务文本语料输入BERT?BiLSTM模型进行训练,实现服务文本分类;步骤3:根据步骤2的服务文本语料特性和分类结果,选择最佳的损失函数以均衡数据集。为了证明所提出方法的有效性,在互联网获取的真实数据集上进行了大量对比试验,其实

2023-06-07

1.3MB