预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657104A(43)申请公布日2021.11.16(21)申请号202111015728.8(22)申请日2021.08.31(71)申请人平安医疗健康管理股份有限公司地址200001上海市黄浦区北京东路666号H区(东座)12G室(72)发明人孙安国(74)专利代理机构深圳市世联合知识产权代理有限公司44385代理人汪琳琳(51)Int.Cl.G06F40/279(2020.01)G06F40/30(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书13页附图4页(54)发明名称文本抽取方法、装置、计算机设备及存储介质(57)摘要本申请实施例属于人工智能领域,应用于医疗领域中,涉及一种文本抽取方法,包括获取待处理文本和预设抽取模型,输入待处理文本至预设抽取模型,根据编码层对待处理文本进行编码,得到目标编码向量;输入目标编码向量至第一网络层,计算得到第一网络向量;输入第一网络向量至第二网络层,计算得到目标特征矩阵,对目标特征矩阵进行自注意力计算,得到目标特征向量;输入目标特征向量至判别层,计算得到最优标注序列,获取最优标注序列对应的实体信息,得到目标抽取文本。本申请还提供一种文本抽取装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标抽取文本可存储于区块链中。本申请实现了对文本的精确抽取。CN113657104ACN113657104A权利要求书1/2页1.一种文本抽取方法,其特征在于,包括下述步骤:获取待处理文本和预设抽取模型,输入所述待处理文本至所述预设抽取模型,根据所述预设抽取模型的编码层对所述待处理文本进行编码,得到目标编码向量;输入所述目标编码向量至所述预设抽取模型的第一网络层,计算得到所述待处理文本对应的第一网络向量;输入所述第一网络向量至所述预设抽取模型的第二网络层,计算得到目标特征矩阵,对所述目标特征矩阵进行自注意力计算,得到目标特征向量;输入所述目标特征向量至所述预设抽取模型的判别层,计算得到所述待处理文本对应的最优标注序列,获取所述最优标注序列对应的实体信息,确定所述实体信息为所述待处理文本的目标抽取文本。2.根据权利要求1所述的文本抽取方法,其特征在于,所述根据所述预设抽取模型的编码层对所述待处理文本进行编码的步骤包括:获取所述待处理文本的标签信息,根据所述编码层对所述标签信息进行编码,得到第一向量,根据所述编码层对所述待处理文本的字进行编码,得到第二向量;对所述第一向量和所述第二向量进行拼接,得到所述目标编码向量。3.根据权利要求2所述的文本抽取方法,其特征在于,所述获取所述待处理文本的标签信息,根据所述编码层对所述标签信息进行编码,得到第一向量的步骤包括:获取所述待处理文本的拼音文本、部首文本和反译文本,将所述拼音文本、所述部首文本和所述反译文本作为所述标签信息;根据所述编码层分别对所述拼音文本、所述部首文本和所述反译文本进行编码,得到拼音编码、部首编码和反译编码;对所述拼音编码、所述部首编码和所述反译编码进行自注意力计算,得到所述第一向量。4.根据权利要求1所述的文本抽取方法,其特征在于,所述输入所述目标编码向量至所述预设抽取模型的第一网络层,计算得到所述待处理文本对应的第一网络向量的步骤包括:所述第一网络层包括前向长短期记忆网络和后向长短期记忆网络,将所述目标编码向量按照所述待处理文本的正序输入至所述前向长短期记忆网络,计算得到前向隐向量;将所述目标编码向量按照所述待处理文本的倒序输入至所述后向长短期记忆网络,计算得到后向隐向量;拼接所述前向隐向量和所述后向隐向量,得到所述第一网络向量。5.根据权利要求1所述的文本抽取方法,其特征在于,在所述获取待处理文本和预设抽取模型的步骤之前还包括:采集多组语料文本和所述语料文本对应的真实抽取文本,对所述真实抽取文本和所述语料文本进行标注,得到标注文本;构建基础抽取模型,输入所述标注文本至所述基础抽取模型,计算得到损失函数;根据所述损失函数对所述基础抽取模型的参数进行调整,在所述损失函数收敛时,确定所述基础抽取模型训练完成,将训练完成的所述基础抽取模型作为所述预设抽取模型。6.根据权利要求5所述的文本抽取方法,其特征在于,所述对所述真实抽取文本和所述2CN113657104A权利要求书2/2页语料文本进行标注,得到标注文本的步骤包括:对所述真实抽取文本进行分词,得到分词词语,获取每个所述分词词语在所述真实抽取文本中的位置;按照所述位置的起始位置、中间位置和结束位置对所述分词词语进行标签标注,得到第一子文本;获取所述语料文本的预设标签,根据所述预设标签将所述语料文本标注为第二子文本,组合所述第一子文本和所述第二子文