预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110580185A(43)申请公布日2019.12.17(21)申请号201810581469.7(22)申请日2018.06.07(71)申请人中兴通讯股份有限公司地址广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦(72)发明人陈小强(74)专利代理机构北京元本知识产权代理事务所11308代理人金海荣(51)Int.Cl.G06F9/448(2018.01)权利要求书1页说明书6页附图3页(54)发明名称数据预处理方法、设备和存储介质(57)摘要本发明实施例公开了一种数据预处理方法、设备和存储介质,属于数据预处理领域。其中,该方法包括:监测原始数据所在的路径;当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;其中,配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。本发明实施例通过将各个步骤进行标准化,各个步骤之间由数据驱动,由预处理脚本或程序从数据输入路径读取数据,将生成的结果保存到数据输出路径,从而能适用各种各样数据及各种程序脚本语言,同时,也无需用户轮询各步骤的执行结果,减少了各个步骤之间执行结果的等待。CN110580185ACN110580185A权利要求书1/1页1.一种数据预处理方法,其特征在于,该方法包括:监测原始数据所在的路径;当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;其中,所述配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。2.根据权利要求1所述的数据预处理方法,其特征在于,所述预处理脚本或程序采用相同或者不相同的程序语言实现,用于对数据输入路径下的数据进行预处理,并将处理结果保存到所述数据输出路径。3.根据权利要求1所述的数据预处理方法,其特征在于,所述预处理脚本或程序包括入口脚本、以及至少一个子任务脚本或程序,其中:所述入口脚本用于定义所述至少一个子任务脚本或程序的执行顺序;所述子任务脚本或程序是一系列按预设的规则进行编写的实现该步骤功能的子任务的脚本或程序。4.根据权利要求2所述的数据预处理方法,其特征在于,所述根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序包括:按照所述配置文件中预设的各个步骤的执行顺序,依次扫描每个步骤的数据输入路径;当所述步骤的数据输入路径下存在未处理的中间数据时,调用所述步骤的对应的入口脚本以执行所述至少一个子任务脚本或程序。5.根据权利要求1所述的数据预处理方法,其特征在于,所述执行各个步骤对应的预处理脚本或程序之后,还包括:删除各个步骤对应的所述数据输入路径下已处理的中间数据。6.根据权利要求1所述的数据预处理方法,其特征在于,所述配置文件中还预设有用户地址,所述用户地址包括用户邮箱。7.根据权利要求2所述的数据预处理方法,其特征在于,所述方法还包括:当所述方法执行完成、或者当每一步骤执行完成或失败时,通过所述用户地址向用户反馈提示信息。8.根据权利要求1-7所述的数据预处理方法,其特征在于,所述原始数据包括图像,所述图像包括人脸图像、车辆图像、或车牌图像。9.一种数据预处理设备,其特征在于,该数据预处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的数据预处理方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的数据预处理方法的步骤。2CN110580185A说明书1/6页数据预处理方法、设备和存储介质技术领域[0001]本发明涉及数据预处理领域,特别涉及一种人工智能的数据预处理方法、设备和存储介质。背景技术[0002]人工智能模型训练需要的训练数据来源众多,数据文件格式各种各样,数据内容五花八门、数据处理的脚本或者程序也各不相同,必须经过预处理后,才能用于人工智能模型训练。不同任务(人脸、人形、车辆),不同算法,比如在人脸识别,MTCNN(Multi-taskconvolutionalneuralnetworks,将多任务级联卷积神经网络)需要编写不同的预处理脚本、所需要的预处理步骤也不相同、脚本运行的时间有长有短。[0003]目前,数据预处理聚焦在具体一个步骤,着眼在文件格式、不同字段类型的自动化处理,对预处理各个步骤没有标准化,各个步骤之间基本是手工运行,针对处理耗时较长的步骤,还需要人工轮询查看生成结果,下一个步骤需要等待上一