预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114626346A(43)申请公布日2022.06.14(21)申请号202210071894.8(22)申请日2022.01.21(71)申请人锦创科技股份有限公司地址210000江苏省南京市秦淮区太平南路211号九龙大厦6、11、12、13层(72)发明人荆斌华(74)专利代理机构北京集智东方知识产权代理有限公司11578专利代理师陈攀(51)Int.Cl.G06F40/166(2020.01)G06F40/169(2020.01)G06F40/205(2020.01)G06F40/279(2020.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于人工智能的NLP分析识别与数据清洗方法(57)摘要本发明适用于数据清洗技术领域,提供了一种基于人工智能的NLP分析识别与数据清洗方法,通过NPL模块第一步唯一性检查,这样既可以去掉多余重复的数据,减轻数据处理的负担,方便后续的数据处理,又可以对重复的部分保留其权重的特点;第二步权威性检查,从而根据其权威性直接进行权重排序,方便直观的了解到重要的可信度高的数据;第三步合理性检查,这样可以对有问题的数据进行剔除,进行进一步的精选;第四步一致性检查,从而可以对数据进行分类,实现对数据的进一步精选,第五步完整性检查,从上述庞大数据中提取与缺损数据相关的内容进行补充完整,最后对主流的加权后排序的数据进行保留,其余的数据统一删除,实现快速的对数据清洗。CN114626346ACN114626346A权利要求书1/2页1.一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:包括如下步骤:步骤S1、从网上爬取目标数据;步骤S2、通过NLP模块对目标数据进行分析识别;步骤S3、对分析识别后多余的、错误的或者不正常的数据进行清洗;其中在步骤S2中,NLP模块对目标数据按照数据的唯一性、权威性、合理性、一致性以及完整性依次对数据进行查重、权重排序、检查符不符合常识、对比分析一致性以及从其余数据提取部分数据进行补充。2.如权利要求1所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:在步骤S2中包括如下步骤:步骤S21、NPL模块对数据的唯一性进行检查,并对重复部分进行标注,按重复部分的数量进行排序,并将其余多余数据进行删除;步骤S22、NPL模块对数据来源的权威性进行检查匹配,并分别赋予对应的权重后重新进行排序;步骤S23、NPL模块对数据内逻辑的合理性进行检测,并对不合理的数据提取出来单独排序;步骤S24、NPL模块对数据的一致性进行检测,并对反例进行单独排序;步骤S25、NPL模块对数据的完整性进行检查和补充。3.如权利要求2所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:在步骤S24中包括如下步骤:步骤S241、对所有的数据进行检查,并逻辑对相同或者相似的数据进行归类;步骤S242、在多类数据中提取出相反或者相对的两类数据;步骤S243、在相反或者相对的两类数据中,按照该类数据的条目数量多少或者该类数据的总权重的多少进行比对,多的一方作为正常数据,反之则作为反例,提取出来单独排序。4.如权利要求2所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:步骤S25中具体包括步骤:步骤S251、对正常数据中的所有数据进行检查,将完整性缺失的数据单独提取形成一列;步骤S252、从同类的数据中提取对应部分的数据进行填补完整,并重新检查其唯一性、合理性和一致性;步骤S253、从相反或者相对的数据中提取对应的反义数据进行填补完整,并重新检查其唯一性、合理性和一致性;步骤S254、从不合理的数据中提起出需要的并且合理的部分数据进行填补完整,并重新检查其唯一性、合理性和一致性。5.如权利要求1所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:在步骤S3中,包括步骤S31、对填补完整的数据重新归纳到正常数据中进行重新排序,形成新的正常数据保存使用;步骤S32、对其余的单独排列的不合理数据、反例数据进行删除清洗。2CN114626346A权利要求书2/2页6.如权利要求2所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:所述NLP模块包括查重单元,对数据的唯一性进行检查;权重单元,对数据来源的权威性进行检查,并赋予对应的权重和排序位置;检查单元,对数据内逻辑的合理性进行检测;对比单元,对数据的一致性进行检测,并将反例单独归纳;查缺单元,对数据的完整性进行检查和补充。7.如权利要求6所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:所述NLP模块还包括排序单元,用于将查重后的数据按照重复标记的数量从多到少进行排序,还用于将加权后的数据重新进行