预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115495576A(43)申请公布日2022.12.20(21)申请号202211056658.5(22)申请日2022.08.31(71)申请人上海飞未信息技术有限公司地址201108上海市闵行区光华路2118号第3幢五层B537室(72)发明人李照谢润中褚海涛(51)Int.Cl.G06F16/35(2019.01)G06F16/33(2019.01)G06F40/284(2020.01)G06Q50/02(2012.01)G06Q50/26(2012.01)权利要求书1页说明书5页附图5页(54)发明名称一种多源异构农业农村大数据分类方法(57)摘要本发明涉及农业农村大数据技术领域,具体揭示了一种多源异构农业农村大数据分类方法,包括如下步骤:S1、首先根据数据源的配置,读取源数据的元数据信息;S2、然后根据源表名称和描述信息,利用已训练好的自然语言处理模型。本发明通过使用自然语言处理分类模型Fasttext、TextCNN、SVM和随机森林完成对表描述和字段描述信息进行分类预测,结合权重计算模型进行分类权重计算,获得精准的标准数据集(表)的推荐和标准数据项(字段)的推荐,达到了自动化效率高的优点,解决了现有的农村大数据读取自动化效率低,往往数据读取都是人为处理,这样容易出错和主观分类不同意,而且效率比较低,因此不便于人们使用的问题。CN115495576ACN115495576A权利要求书1/1页1.一种多源异构农业农村大数据分类方法,其特征在于:包括如下步骤:S1、首先根据数据源的配置,读取源数据的元数据信息;S2、然后根据源表名称和描述信息,利用已训练好的自然语言处理模型,识别标准数据集,一般情况下推荐5~10个标准数据集;S3、此时根据推荐的数据集,进一步做源表字段名称、类型、长度、描述等处理,利用已训练好的字段分类模型识别出标准字段;S4、综合标准字段和标准数据集的识别权重值,进行综合计算,得出最后的综合权重并排序推荐标准数据集和标准数据字段。2.根据权利要求1所述的一种多源异构农业农村大数据分类方法,其特征在于:所述多源异构数据读取采用底层插件技术,针对不同的数据源采用不同的独立插件读取数据和元数据补充信息。3.根据权利要求2所述的一种多源异构农业农村大数据分类方法,其特征在于:所述插件实现逻辑模型中包括Job、Task两个维度,通过将Job进行Task拆分,然后将Task合并到TaskGroup进行运行,其中Job是DataX用以描述从一个源头到一个目的端的同步作业,是DataX数据同步的最小业务单元,比如:从一张Mysql的表同步到Odps的一个表的特定分区,Task是为最大化而把Job拆分得到的最小执行单元,比如:读一张有1024个分表的Mysql分库分表的Job,拆分成1024个读Task,用若干个并发执行。4.根据权利要求1所述的一种多源异构农业农村大数据分类方法,其特征在于:所述标准数据集识别处理主要是根据表中文名称和表描述等信息进行分词处理,获得所述待分类文本对应的分词集合,根据预设的词向量词典对表名称和表描述信息分词集合进行向量化处理,获得表名称和表描述分类文本对应的词向量集合,针对表名称词向量和表描述词向量分别计算出与标准数据集的描述的Fasttext、Textcnn和SVM的相似权重,并推荐出数据标准数据集。2CN115495576A说明书1/5页一种多源异构农业农村大数据分类方法技术领域[0001]本发明涉及农业农村大数据技术领域,具体为一种多源异构农业农村大数据分类方法。背景技术[0002]随着生产力的提高和社会发展,新一轮科技革命、产业变革方兴未艾,云计算、大数据、区块链、物联网、智联网等新一代信息技术加快应用,深刻改变生产生活方式,引发经济格局和产业形态深度变革,形成发展数字经济的普遍共识,数字农业农村既是乡村振兴的战略方向,也是建设数字中国的重要内容,但是数据很多情况只在很小的范围内垂直交换,导致无法发挥应数据有的价值,迫切需要进行数据整合,按照统一运行网络、统计基础设施、统一数据资源、统一服务平台、统一安全策略、统一标准规范的总体要求,建立统一的农业农村大数据平台。[0003]本申请人意识到在建立统一农业农村大数据平台的过程一般需要数据读取、数据处理、数据治理、数据组织和数据服务等过程,而首先需要处理的是数据读取汇聚,由于以前信息化建设时都是由各个业务职能部门进行信息化建设,没有统一的建设标准,必然存在数据标准不统一,数据表示方式各种各样的问题。[0004]数据读取时,源数据和标准数据的对应问题会需要大量的繁琐调查和确认处理,而人为处理由于存在个体差异,容易出错和主观分类不统一,而且效率相对比较低下,随着计算机技术