预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110750980A(43)申请公布日2020.02.04(21)申请号201911352915.8(22)申请日2019.12.25(71)申请人北京海天瑞声科技股份有限公司地址100083北京市海淀区成府路28号优盛大厦D801(72)发明人杨萌萌郝玉峰黄宇凯邵志明曹琼李科(74)专利代理机构北京钲霖知识产权代理有限公司11722代理人李英艳李志新(51)Int.Cl.G06F40/211(2020.01)G06F40/289(2020.01)权利要求书3页说明书11页附图6页(54)发明名称短语语料获取方法及短语语料获取装置(57)摘要本发明涉及语音合成技术领域,提供一种短语语料获取方法及短语语料获取装置。短语语料获取方法,包括:获取待处理长句语料。拆分待处理长句语料,得到至少一个子句语料。将子句语料的字数与预设句长阈值进行对比。若子句语料的字数小于或等于预设句长阈值,则保留子句语料作为短句语料。通过本公开提供的获取短语语料方法,将待处理长句语料拆分成独立的子句语料进行处理,有助于提高语料清洗句子利用率,减少待处理长句语料中有用语料的损失,进而节省人工校对的成本。CN110750980ACN110750980A权利要求书1/3页1.一种短语语料获取方法,其特征在于,所述方法包括:获取待处理长句语料;拆分所述待处理长句语料,得到至少一个子句语料;将所述子句语料的字数与预设句长阈值进行对比;若所述子句语料的字数小于或等于所述预设句长阈值,则保留所述子句语料作为短句语料。2.根据权利要求1所述的方法,其特征在于,所述拆分所述待处理长句语料,得到至少一个子句语料,包括:通过序列标注模型,判断所述待处理长句语料是否存在独立子句;若所述待处理长句语料存在独立子句时,则将所述待处理长句语料根据标点进行拆分,得到所述子句语料。3.根据权利要求1或2所述的方法,其特征在于,所述拆分所述待处理长句语料,得到至少一个子句语料,包括:通过依存句法分析,判断所述待处理长句语料是否存在并列的子句;若所述待处理长句语料存在并列的子句,则将所述待处理长句语料拆分成多个并列的所述子句语料。4.根据权利要求3所述的方法,其特征在于,所述通过依存句法分析,判断所述待处理长句语料是否存在并列关系的子句,包括:通过依存句法分析,得到所述待处理长句语料的核心词;基于所述依存句法分析,根据所述待处理长句语料是否含有与所述核心词具有并列关系的并列词,判断所述待处理长句语料是否存在并列的子句;所述根据所述并列关系,将所述待处理长句语料进行拆分,包括:若所述待处理长句语料存在含有所述并列词的子句,则将所述待处理长句语料拆分成含有所述核心词的子句语料,以及含有所述并列词的子句语料。5.根据权利要求3所述的方法,其特征在于,所述拆分所述待处理长句语料,得到至少一个子句语料,还包括:若所述待处理长句语料不存在并列的子句,则将所述待处理长句语料进行成分提取。6.根据权利要求5所述的方法,其特征在于,所述将所述待处理长句语料进行成分提取,包括:基于所述依存句法分析,根据所述待处理长句语料的句子结构将所述待处理长句语料进行所述成分提取,得到所述子句语料。7.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述子句语料的字数大于所述预设句长阈值,则:通过依存句法分析,判断所述子句语料是否存在并列的子句。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述短句语料进行短语校验,保留通过所述短语校验的所述短句语料。9.根据权利要求8所述的方法,其特征在于,所述将所述短句语料进行短语校验,保留通过所述短语校验的所述短句语料,包括:通过语言训练模型,得到所述短句语料的困惑度;2CN110750980A权利要求书2/3页将所述困惑度与预设困惑阈值进行对比,保留所述困惑度小于所述预设困惑阈值的短句语料。10.根据权利要求8所述的方法,其特征在于,所述获取待处理长句语料,包括:获取待处理语料集,将所述待处理语料集中的待处理语料长度与预设语料句长阈值进行对比,其中,所述待处理语料集中包括至少一句所述待处理语料;若所述待处理语料的长度大于或等于所述预设语料句长阈值,则获取所述待处理语料,所述待处理语料为待处理长句语料;若所述待处理语料的长度小于所述语料预设句长范围,则将所述待处理语料进行所述短句校验,所述语料为待处理短句语料。11.一种短语语料获取装置,其特征在于,所述装置包括:获取模块,用于获取待处理长句语料,和当子句语料的字数小于或等于预设句长阈值时,保留所述子句语料作为短句语料;拆分模块,用于拆分所述待处理长句语料,得到至少一个所述子句语料;对比模块,用于将所述子句语料的字数与所述预设句长阈值进行对比