预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115982309A(43)申请公布日2023.04.18(21)申请号202211730650.2(22)申请日2022.12.30(71)申请人中兴(温州)轨道通讯技术有限公司地址325000浙江省温州市高新技术产业园区创新大楼六楼601室(72)发明人黄相辉赵方捷金斌斌徐军林静陈帆邹海双吴磊(74)专利代理机构重庆卓茂专利代理事务所(普通合伙)50262专利代理师刘彦伟(51)Int.Cl.G06F16/31(2019.01)G06F16/36(2019.01)G06F40/289(2020.01)G06Q50/26(2012.01)权利要求书2页说明书5页附图1页(54)发明名称一种基于大数据的轨道交通数据分析方法(57)摘要本发明涉及大数据分析技术领域,具体为一种基于大数据的轨道交通数据分析方法,所述轨道交通数据分析方法包括以下步骤:S1、采集数据;S2、清洗数据;S3、构建数据词典;S4、对数据词典进行分词;S5、数据索引,通过采集数据、清洗数据、构建数据词典、对数据词典进行分词以及数据索引步骤的配合操作,有利于对现有的轨道交通数据进行分析处理,使得轨道交通数据的利用率高,能够充分的对数据进行有效检索,同时检索效率高。CN115982309ACN115982309A权利要求书1/2页1.一种基于大数据的轨道交通数据分析方法,其特征在于,所述轨道交通数据分析方法包括以下步骤:S1、采集数据;S2、清洗数据;S3、构建数据词典;S4、对数据词典进行分词;S5、数据索引。2.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤S1中数据采集包括对轨道设备维修数据的采集,维修数据包括结构化数据、半结构化数据和非结构化数据。3.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤S2中清洗数据包括以下步骤:S11、处理缺失值,首先对需要进行缺失值的字段进行重要性分析,计算缺失值比例;S12、处理格式内容,如果是由用户填写等受人为因素影响较大而得来的数据,格式内容问题有以下几类:格式问题,由于输入端格式不同造成的,例如日期格式,处理过程中一般选择其中某一格式为标准,将不同的格式进行转换;内容问题,比如内容中存在不符合的字符,可先识别问题类型然后再进行处理,一般选择对数据进行过滤,去除不符的内容。S13、逻辑错误清洗,首先进行去重、然后进行去除不合理值、最后修正矛盾内容;S14、非需求数据清洗,如果数据量没有大到不删除字段就没办法处理的程度,一般不对数据进行删除操作。S15、关联性验证,如果数据有多个涟源,则需要进行关联性验证。4.根据权利要求3所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤S11中计算缺失值比例按照以下规则进行:重要性和缺失比率处理规则,重要性高且缺失率高的字段,需要进行填充缺失内容,重要性高且缺失率低的字段,需要进行填充缺失内容,重要性低且缺失率高的字段,可直接去除该字段,重要性低且缺失率低的字段,可不做处理或者简单操作补充。5.根据权利要求4所述的一种基于大数据的轨道交通数据分析方法,其特征在于,对于需要进行填充缺失内容的字段,数据填充一般可通过以下方式:方式一、人工参与的方式填充缺失值,例如经验累计,专业知识等;方式二、通过同一字段的数据进行简单计算,例如平均数、众数等;方式三、以多个字段的组合通过一定规则计算结果填充缺失值;方式四、如果某些指标非常重要又缺失率高,可进行的操作包括重新进行数据采集工作,或者通过其他渠道获取相关的数据集。6.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤S3中构建数据词典包括以下步骤:S21、数据全切分,在该步骤中,将一个非结构化维修数据字符进行全切分为单词;S22、构建单词的关系图,在构建过程中,对切分成单字的单词进行hash计算,得到首字hash表,同时,生成一个该字的一个链表,在链表中,包含了一个或者多个指向下个单字单词的指针,同时,链表保存了当前单字出现的次数;S23、词语的提取,提取过程中,首先,设置一个阈值对单字的次数进行过滤,然后,从最2CN115982309A权利要求书2/2页低的次数进行,当次数相同时,构成语句,同时,与更高层次的相同次数构成更长语句,此后,删除最低次数,然后再次从次低次数进行,直到关系图不再构成语句。7.根据权利要求6所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤S22中当对一个字符串进行处理的时候,从首字hash表进行查找,如果不存在该单字,在hash表中创建该单字,创建链表,同时将hash表指针指向链表;如果存在该单字,则进行链表的指针指向处理,最后对出