预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114997136A(43)申请公布日2022.09.02(21)申请号202210501545.5(22)申请日2022.05.09(71)申请人阿里巴巴(中国)有限公司地址311121浙江省杭州市余杭区五常街道文一西路969号3幢5层554室(72)发明人陈诗雁(74)专利代理机构北京博思佳知识产权代理有限公司11415专利代理师王剑(51)Int.Cl.G06F40/20(2020.01)G06F40/289(2020.01)G06F16/31(2019.01)权利要求书2页说明书14页附图4页(54)发明名称文本匹配方法、知识库的构建方法和装置(57)摘要说明书披露一种文本匹配方法、知识库的构建方法和装置。所述文本匹配方法包括:确定目标语句的语句长度;根据所述语句长度计算文本切分的切分粒度和切分偏移;根据所述切分粒度和所述切分偏移将待匹配文本切分为文本片段;针对每个文本片段,判断所述文本片段与所述目标语句是否匹配;综合各文本片段的片段匹配结果,确定所述待匹配文本与所述目标语句的文本匹配结果。CN114997136ACN114997136A权利要求书1/2页1.一种文本匹配方法,包括:确定目标语句的语句长度;根据所述语句长度计算文本切分的切分粒度和切分偏移;根据所述切分粒度和所述切分偏移将待匹配文本切分为文本片段;针对每个文本片段,判断所述文本片段与所述目标语句是否匹配;综合各文本片段的片段匹配结果,确定所述待匹配文本与所述目标语句的文本匹配结果。2.根据权利要求1所述的方法,所述根据所述切分粒度和所述切分偏移将待匹配文本切分为文本片段,包括:针对每个切分偏移,根据所述切分偏移为所述待匹配文本确定本次切分的切分起始词语;从所述切分起始词语开始,在所述待匹配文本中切分出符合所述切分粒度的文本片段。3.根据权利要求1所述的方法,所述判断所述文本片段与所述目标语句是否匹配,包括:确定所述目标语句中首词语在所述文本片段中的首词位置参数和尾词语在所述文本片段中的尾词位置参数;判断所述首词位置参数和所述尾词位置参数的差值是否大于等于所述目标语句的语句长度;在所述差值大于等于所述语句长度的情况下,判断所述文本片段与所述目标语句是否匹配。4.根据权利要求3所述的方法,还包括:在所述差值小于所述语句长度的情况下,确定所述文本片段与所述目标语句不匹配。5.根据权利要求1所述的方法,所述综合各文本片段的片段匹配结果,确定所述待匹配文本与所述目标语句的文本匹配结果,包括:在存在片段匹配结果是匹配的文本片段的情况下,确定所述文本匹配结果为所述待匹配文本与所述目标语句匹配;在不存在片段匹配结果是匹配的文本片段的情况下,确定所述文本匹配结果为所述待匹配文本与所述目标语句不匹配。6.根据权利要求1所述的方法,还包括:判断所述待匹配文本是否具有所述目标语句中的每个词语;在所述待匹配文本未具有所述目标语句中的每个词语的情况下,确定所述待匹配文本与所述目标语句不匹配。7.根据权利要求6所述的方法,所述根据所述语句长度计算文本切分的切分粒度和切分偏移,包括:在所述待匹配文本具有所述目标语句中的每个词语的情况下,根据所述语句长度计算文本切分的切分粒度和切分偏移。8.一种知识库的构建方法,包括:提取待结构化文本;2CN114997136A权利要求书2/2页判断所述待结构化文本是否与预设语句匹配;在所述待结构化文本与所述预设语句匹配的情况下,从所述待结构化文本中提取出匹配所述预设语句的索引语句;根据所述索引语句和所述待结构化文本构建知识库;其中,所述待结构化文本与所述预设语句采用如权利要求1‑7中任一项所述的方法进行匹配。9.一种文本匹配装置,包括:长度确定单元,确定目标语句的语句长度;切分计算单元,根据所述语句长度计算文本切分的切分粒度和切分偏移;文本切分单元,根据所述切分粒度和所述切分偏移将待匹配文本切分为文本片段;片段匹配单元,针对每个文本片段,判断所述文本片段与所述目标语句是否匹配;文本匹配单元,综合各文本片段的片段匹配结果,确定所述待匹配文本与所述目标语句的文本匹配结果。10.一种知识库的构建装置,包括:文本提取单元,提取待结构化文本;匹配判断单元,判断所述待结构化文本是否与预设语句匹配;索引提取单元,在所述待结构化文本与所述预设语句匹配的情况下,从所述待结构化文本中提取出匹配所述预设语句的索引语句;知识库构建单元,根据所述索引语句和所述待结构化文本构建知识库;其中,所述待结构化文本与所述预设语句采用如权利要求1‑7中任一项所述的方法进行匹配。11.一种电子设备,包括:处理器;用于存储机器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现如权利要求1‑8中任一项所述的方法的步骤。