预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115759059A(43)申请公布日2023.03.07(21)申请号202211572918.4(22)申请日2022.12.08(71)申请人上海墨百意信息科技有限公司地址200232上海市徐汇区丰谷路315弄24号2层2015室(72)发明人林雨琦李媛媛(74)专利代理机构北京睿派知识产权代理有限公司11597专利代理师刘锋(51)Int.Cl.G06F40/253(2020.01)G06F40/279(2023.01)G06N3/0455(2020.01)G06N3/08(2023.01)权利要求书2页说明书10页附图6页(54)发明名称文本处理方法、装置、电子设备和可读存储介质(57)摘要本申请实施例提供了一种文本处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域。在本申请实施例中,本申请实施例会先通过根据第一预定比例的原始样本进行训练得到的目标模型筛选出目标样本,再通过目标样本训练语法检测模型。因此,本申请实施例可以先准确筛选出特定类型的目标样本,在根据特定类型的目标样本构建目标训练集,从而更有效地训练语法检测模型。因此,通过本申请实施例,通过基于目标训练集训练后的语法检测模型,可以使得语法检测模型能够更准确地进行语法检测,从而提高语法错误检测的准确度。CN115759059ACN115759059A权利要求书1/2页1.一种文本处理方法,其特征在于,所述方法包括:获取目标文本;以及将所述目标文本输入预先训练的语法检测模型,以确定所述目标文本对应的语法检测结果,其中,所述语法检测模型基于目标训练集训练得到,所述目标训练集中至少包括目标样本,所述目标样本由目标模型筛选得到,所述目标模型根据第一预定比例的原始样本进行训练得到。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取预训练模型和原始样本,所述原始样本中包括第一预定比例的正样本和第一负样本,所述正样本用于表征没有语病的样本,所述第一负样本用于表征具有语病的样本,所述第一负样本的比例大于所述正样本的比例;以及根据所述原始样本对所述预训练模型进行训练,确定所述目标模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取待筛选数据集;将所述待筛选数据集中的文本输入所述目标模型,以确定所述目标模型输出的识别结果,其中,所述识别结果包括没有语病的文本和具有语病的文本;以及将所述识别结果中没有语病的文本确定为目标样本。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述目标样本构建目标训练集,所述目标训练集中包括第二预定比例的目标样本和第二负样本,所述第二负样本用于表征具有语病的样本,所述目标样本的比例大于所述第二负样本的比例;以及根据所述目标训练集,对所述目标模型进行二次训练,以确定所述语法检测模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标训练集,对所述目标模型进行二次训练,以确定所述语法检测模型包括:将所述目标训练集中的各样本输入所述目标模型,以确定所述目标模型的输出结果;以及根据述目标训练集中各样本对应的训练标签和所述输出结果,调整所述目标模型的模型参数,以确定所述语法检测模型。6.根据权利要求1‑5中任一项所述的方法,其特征在于,所述预训练模型为中文预训练的不平衡变压器模型。7.根据权利要求6所述的方法,其特征在于,所述语法检测模型由所述预训练模型中的共享编码器和理解解码器构成,所述目标训练集至少用于训练所述共享编码器和所述理解解码器。8.一种文本处理装置,其特征在于,所述装置包括:目标文本获取模块,被配置为执行获取目标文本;以及语法检测模块,被配置为执行将所述目标文本输入预先训练的语法检测模型,以确定所述目标文本对应的语法检测结果,其中,所述语法检测模型基于目标训练集训练得到,所述目标训练集中至少包括目标样本,所述目标样本由目标模型筛选得到,所述目标模型根据第一预定比例的原始样本进行训练得到。9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条2CN115759059A权利要求书2/2页计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1‑7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的方法。3CN115759059A说明书1/10页文本处理方法、装置、电子设备和可读存储介质技术领域[0001]本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、电子设备和可读存储介质。背景技术[0002]目前,随着计算机技术的发展,在对文本进行处理的过程中可以对文本进行