一种文本处理方法、装置和用于文本处理的装置-豆柴文库

一种文本处理方法、装置和用于文本处理的装置.pdf

2023-11-12

10金币

709KB

29页

曾琪****是我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共29页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112199963A(43)申请公布日2021.01.08(21)申请号202011063600.4G06F40/295(2020.01)(22)申请日2020.09.30G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人北京搜狗科技发展有限公司地址100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间(72)发明人李质轩许静芳鲁涛戴磊武静杨正彪殷明明王坤王青龙(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人苏培华(51)Int.Cl.G06F40/56(2020.01)G06F40/58(2020.01)G06F40/284(2020.01)权利要求书2页说明书23页附图3页(54)发明名称一种文本处理方法、装置和用于文本处理的装置(57)摘要本发明实施例提供了一种文本处理方法、装置和用于文本处理的装置。其中的方法包括：对原文本进行向量化处理，得到原文本向量；将所述原文本向量输入第一模型，通过所述第一模型输出目标文本，所述原文本和所述目标文本对应相同的语言，所述第一模型包括拷贝网络，所述拷贝网络用于在所述目标文本中保留所述原文本中的拷贝文本，所述第一模型基于第一语言对应第二语言的翻译平行语料以及第二模型的输出结果训练得到，所述第二模型用于将第一语言的文本翻译为第二语言的文本。本发明实施例可以提高文本润色的效率和准确性。CN112199963ACN112199963A权利要求书1/2页1.一种文本处理方法，其特征在于，所述方法包括：对原文本进行向量化处理，得到原文本向量；将所述原文本向量输入第一模型，通过所述第一模型输出目标文本，所述原文本和所述目标文本对应相同的语言，所述第一模型包括拷贝网络，所述拷贝网络用于在所述目标文本中保留所述原文本中的拷贝文本，所述第一模型基于第一语言对应第二语言的翻译平行语料以及第二模型的输出结果训练得到，所述第二模型用于将第一语言的文本翻译为第二语言的文本。2.根据权利要求1所述的方法，其特征在于，所述翻译平行语料中包括第一语言文本以及第一语言文本对应的第二语言标准文本，通过如下步骤训练所述第一模型：对所述第一语言文本进行向量化处理，得到第一语言文本向量；将所述第一语言文本向量输入第二模型，通过所述第二模型输出所述第一语言文本对应第二语言的翻译文本；将所述翻译文本输入第一模型，通过所述第一模型的拷贝网络保留所述翻译文本中的拷贝文本，并通过所述第一模型输出所述翻译文本对应的处理后文本，所述处理后文本中保留有所述翻译文本中的拷贝文本；根据所述处理后文本与所述第二语言标准文本之间的差异，计算总损失值；根据所述总损失值，调整所述第一模型的模型参数，直到计算的总损失值达到预设收敛条件，得到训练完成的第一模型。3.根据权利要求2所述的方法，其特征在于，所述拷贝网络包括第一编码器和第一解码器，所述将所述翻译文本输入第一模型，通过所述第一模型的拷贝网络保留所述翻译文本中的拷贝文本，并通过所述第一模型输出所述翻译文本对应的处理后文本，包括：对所述翻译文本进行向量化处理，得到翻译文本向量；将所述翻译文本向量输入所述第一编码器进行编码，得到第一编码器中间向量；将所述第一编码器中间向量输入所述第一解码器进行解码，得到第一解码器中间向量；根据所述第一编码器中间向量和所述第一解码器中间向量，生成拷贝向量；根据所述拷贝向量，生成处理后分词概率序列，所述处理后分词概率序列中的各元素表示第一语言词表中各分词出现在处理后文本中各位置的概率；根据所述处理后分词概率序列，在所述第一语言词表中确定处理后文本中各位置对应的目标分词，得到处理后文本。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一编码器中间向量和所述第一解码器中间向量，生成拷贝向量，包括：根据所述第一解码器中间向量，生成第一分词概率序列；基于预设维度，对所述第一编码器中间向量与所述第一解码器中间向量进行连接，得到结合向量；将所述结合向量输入全连接层进行计算，得到拷贝向量。5.根据权利要求4所述的方法，其特征在于，所述根据所述拷贝向量，生成处理后分词概率序列，包括：根据所述拷贝向量，生成第二分词概率序列；2CN112199963A权利要求书2/2页根据所述第一分词概率序列、所述第二分词概率序列、所述第一分词概率序列对应的第一参数、所述第二分词概率序列对应的第二参数，确定处理后分词概率序列。6.根据权利要求2所述的方法，其特征在于，所述第二模型包括第二编码器和第二解码器，所述将所述第一语言文本向量输入第二模型，通过所述第二模型输出所述第一语言文本对应第二语言的翻译文本，包括：将所述第一语言文本向量输入所述第二编码器进行编码，得到

相关资料

一种文本处理方法、装置和用于文本处理的装置.pdf

本发明实施例提供了一种文本处理方法、装置和用于文本处理的装置。其中的方法包括：对原文本进行向量化处理，得到原文本向量；将所述原文本向量输入第一模型，通过所述第一模型输出目标文本，所述原文本和所述目标文本对应相同的语言，所述第一模型包括拷贝网络，所述拷贝网络用于在所述目标文本中保留所述原文本中的拷贝文本，所述第一模型基于第一语言对应第二语言的翻译平行语料以及第二模型的输出结果训练得到，所述第二模型用于将第一语言的文本翻译为第二语言的文本。本发明实施例可以提高文本润色的效率和准确性。

2023-11-12

709KB

用于文本处理的方法和装置.pdf

本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。该方法包括：接收第一文本向量和第二文本向量，其中，第一文本向量用于表示用户问句文本，第二文本向量用于表示候选问句文本，候选问句文本是从知识库中获取的；利用RNN和CNN，对第一文本向量和第二文本向量进行编码，得到针对第一文本向量的第一编码结果和针对第二文本向量的第二编码结果；基于第一编码结果和第二编码结果，确定用户问句文本与候选问句文本之间的相似度，其中，相似度用于确定针对用户问句文本的答复。

2023-05-25

660KB

用于文本处理的方法和装置.pdf

本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。该方法包括：从目标机器对话日志中获取目标问题文本，目标问题文本用于表示机器人客服未能回答的用户问题；基于目标问题文本，获取目标人工对话日志，目标人工对话日志是基于目标问题文本而产生的；利用机器阅读模型对目标问题文本和目标人工对话日志进行处理，其中机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的，训练语料是基于历史问题文本和历史人工对话日志得到的；基于机器阅读模型的处理结果，从目标人工对话日志中获取针对目标问题文本的答

2023-05-25

521KB

文本处理方法和装置.pdf

本申请提供了一种文本处理方法和装置，涉及金融科技(Fintech)领域，通过获取样本图像，对样本图像进行文本提取得到初始文本，初始文本中包括有样本图像中的文字和各个文字的相对位置；在初始文本中确定出关键词，初始文本中包括至少一个关键词；确定关键词在初始文本中所处的位置；获取样本图像所属的业务场景和在业务场景下已知的关键词信息文本，构建得到概率转移矩阵；根据关键词的位置和概率转移矩阵，在初始文本中搜索得到与关键词相关联的目标词组；根据每个关键词和与该关键词关联的目标词组，构造出目标文本。解决了现有的图片中文

2023-06-07

1.2MB

文本处理方法和装置.pdf

本申请提供了一种文本处理方法和装置，涉及互联网技术领域，可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，方法包括：获取目标文本对应的文本分词序列和多个待识别词；分别获取文本分词序列对应的文本特征向量和多个待识别词各自对应的分词特征向量；基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理，得到多个待识别词各自对应的目标特征向量；根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。基于上述方案，本申请能够有效提高训练效率和文本分析效率，以及目标词识别的准确性。

2023-07-24

877KB