预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114218393A(43)申请公布日2022.03.22(21)申请号202210162597.4(22)申请日2022.02.22(71)申请人北京新唐思创教育科技有限公司地址100041北京市石景山区八大处高科技园区内6-C号地3号楼118室(72)发明人张璐(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人祝乐芳(51)Int.Cl.G06F16/35(2019.01)G06F40/126(2020.01)G06F40/289(2020.01)权利要求书3页说明书13页附图7页(54)发明名称数据分类方法、装置、设备和存储介质(57)摘要本公开涉及一种数据分类方法、装置、设备和存储介质,包括:接收用户输入的文本数据;对文本数据进行编码,得到与文本数据对应的第一字向量、第一字位置向量和第一文本向量;对文本数据进行分词处理,得到一个或多个分词;响应于确定一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;将第一字向量表示、第一字位置向量、第一文本向量、第二字向量和第二字位置向量进行拼接,得到拼接的向量;利用预设的目标分类模型,确定拼接的向量的第一特征表示向量;利用预设的分类器,基于第一特征表示向量,确定文本数据的分类结果。CN114218393ACN114218393A权利要求书1/3页1.一种数据分类方法,其特征在于,包括:接收用户输入的文本数据;对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量;对所述文本数据进行分词处理,得到一个或多个分词;响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;将所述第一字向量表示、所述第一字位置向量、所述第一文本向量、所述第二字向量和所述第二字位置向量进行拼接,得到拼接的向量;利用预设的目标分类模型,确定所述拼接的向量的第一特征表示向量;利用预设的分类器,基于所述第一特征表示向量,确定所述文本数据的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量,包括:对所述文本数据进行分词得到文本单词;将分词得到的所述文本单词进行编码,得到各所述文本单词对应的第一字向量、第一字位置向量和第一文本向量。3.根据权利要求2所述的方法,其特征在于,所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量,包括:针对所述一个或多个分词,采用标注方法将与目标领域的至少一个预设种子词存在关联关系的一个或多个分词进行标注;基于标注的所述一个或多个分词与目标领域的至少一个预设种子词的关联关系,获取所述至少一个所述预设种子词中每个预设种子词的第二字向量和第二字位置向量。4.根据权利要求1所述的方法,其特征在于,所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量之前,还包括:基于所述目标领域的至少一个预设种子词与候选词的相似度,确定所述预设种子词对应的候选词;根据所述预设种子词以及所述预设种子词对应的所述候选词,由所述预设种子词验核所述预设种子词对应的候选词组成所述预设种子词在所述目标领域的核心词。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标领域的至少一个预设种子词与候选词的相似度,确定所述预设种子词对应的候选词,包括:获取目标领域的历史文本数据,对所述历史文本数据进行分词得到多个候选分词;获取各所述候选分词的特征表示向量以及所述目标领域的预设种子词的特征表示向量;根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量,采用滑动窗口的方式确定预设种子词对应的第一候选分词。6.根据权利要求5所述的方法,其特征在于,所述根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量,采用滑动窗口的方式确定所述预设种子词对应的第一候2CN114218393A权利要求书2/3页选分词,包括:在所述候选分词的特征表示向量与所述预设种子词的特征表示向量的相似度满足预设阈值时,确定所述候选分词为所述预设种子词对应的第一候选分词。7.根据权利要求6所述的方法,其特征在于,所述在所述候选分词的特征表示向量与所述预设种子词的特征表示向量的相似度满足预设阈值时,确定所述候选分词为所述预设种