预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113051880A(43)申请公布日2021.06.29(21)申请号201911365278.8(22)申请日2019.12.26(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人仇璐(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张效荣王志远(51)Int.Cl.G06F40/169(2020.01)G06F40/284(2020.01)G06F40/242(2020.01)权利要求书2页说明书9页附图4页(54)发明名称文本标注方法和装置(57)摘要本发明公开了一种文本标注方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待标注文本中每一字的词典特征向量;其中,所述词典特征向量中的分量表征该字与该字在待标注文本中的邻接字组成的词语是否为预设词典中的词语;将待标注文本中每一字的词典特征向量和预先获取的嵌入向量输入预先训练完成的文本标注模型,得到每一字对应的标签;其中,所述文本标注模型的训练数据包括多个字的词典特征向量和嵌入向量以及预先为所述多个字确定的标签。该实施方式能够提取待标注文本中每一字的词典特征输入模型来提高模型的泛化能力以及标注准确性。CN113051880ACN113051880A权利要求书1/2页1.一种文本标注方法,其特征在于,包括:获取待标注文本中每一字的词典特征向量;其中,所述词典特征向量中的分量表征该字与该字在待标注文本中的邻接字组成的词语是否为预设词典中的词语;将待标注文本中每一字的词典特征向量和预先获取的嵌入向量输入预先训练完成的文本标注模型,得到每一字对应的标签;其中,所述文本标注模型的训练数据包括多个字的词典特征向量和嵌入向量以及预先为所述多个字确定的标签。2.根据权利要求1所述的方法,其特征在于,获取待标注文本中每一字的词典特征向量,包括:确定待标注文本中任一字邻域内的邻接字,并将该任一字与至少一个邻接字组成词语;其中,该任一字与至少一个邻接字为待标注文本中连续的字;判断组成的词语是否存在于所述词典中:若是,将该词语赋为第一数值;否则,将该词语赋为第二数值;将每一词语的赋值组成该任一字的词典特征向量。3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:获取待标注文本中每一字的独热编码向量;将所述独热编码向量输入预先训练完成的字向量生成模型,得到待标注文本中每一字的嵌入向量。4.根据权利要求2所述的方法,其特征在于,所述文本标注模型包括得分向量生成模型和打分判别模型;以及,将待标注文本中每一字的词典特征向量和预先获取的嵌入向量输入预先训练完成的文本标注模型,得到每一字对应的标签,包括:将待标注文本中每一字的嵌入向量和词典特征向量输入得分向量生成模型,得到每一字的得分向量;其中,得分向量中的每一得分表征该字对应于一个标签的概率;将每一字的得分向量输入打分判别模型,利用打分判别模型为待标注文本的每一种标注方式打分,将分数最高的标注方式确定为待标注文本的标注结果;其中,在待标注文本的每一种标注方式中,待标注文本中的每一字都被分配一个标签。5.根据权利要求4所述的方法,其特征在于,得分向量生成模型包括第一特征提取模型、第二特征提取模型和降维模型;以及,将待标注文本中每一字的嵌入向量和词典特征向量输入得分向量生成模型,得到每一字的得分向量,包括:将每一字的嵌入向量输入第一特征提取模型,得到每一字的第一隐状态向量;将每一字的词典特征向量输入第二特征提取模型,得到每一字的第二隐状态向量;将每一字的第一隐状态向量和第二隐状态向量拼接,并将拼接得到的向量输入降维模型,得到每一字的得分向量。6.根据权利要求5所述的方法,其特征在于,第一数值为一,第二数值为零;打分判别模型为条件随机场,第一特征提取模型和第二特征提取模型都为双向长短期记忆网络BiLSTM,降维模型为全连接层。7.一种文本标注装置,其特征在于,包括:词典特征提取单元,用于获取待标注文本中每一字的词典特征向量;其中,所述词典特征向量中的分量表征该字与该字在待标注文本中的邻接字组成的词语是否为预设词典中的词语;2CN113051880A权利要求书2/2页文本标注单元,用于将待标注文本中每一字的词典特征向量和预先获取的嵌入向量输入预先训练完成的文本标注模型,得到每一字对应的标签;其中,所述文本标注模型的训练数据包括多个字的词典特征向量和嵌入向量以及预先为所述多个字确定的标签。8.根据权利要求7所述的装置,其特征在于,词典特征提取单元还用于:确定待标注文本中任一字邻域内的邻接字,并将该任一字与至少一个邻接字组成词语;其中,该