预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106776794A(43)申请公布日2017.05.31(21)申请号201611046999.9(22)申请日2016.11.23(71)申请人北京锐安科技有限公司地址100044北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层(72)发明人朱立业(74)专利代理机构北京品源专利代理有限公司11332代理人胡彬邓猛烈(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书5页附图5页(54)发明名称一种海量数据处理方法及系统(57)摘要本发明公开了一种海量数据处理方法及系统,该方法包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。基于上述方法及系统,通过实现数据处理工作的自动化,可以高效的从海量数据中提取到各种经过处理的有价值信息,完成大量的重复检索分析工作,保证了分析质量并能够吸纳分析经验,不断提高分析的准确性,弥补了不同水平人员的分析知识盲区和差异。CN106776794ACN106776794A权利要求书1/2页1.一种海量数据处理方法,其特征在于,包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。2.根据权利要求1所述的方法,其特征在于,还包括:将所述匹配结果进行关联分析,得到含关联信息的匹配结果;将所述含关联信息的匹配结果根据数据上传格式和/或数据下载格式输出成相关格式文件。3.根据权利要求1所述的方法,其特征在于,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:将所述海量数据按各自协议格式解析到tcp、udp层并存储。4.根据权利要求3所述的方法,其特征在于,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:将解析后的数据按流进行流量统计和应用协议识别。5.根据权利要求1所述的方法,其特征在于,还包括:通过学习以往的模板编写经验,对每个匹配结果进行统计排名,从一个关键字的多个匹配结果中选择统计排名靠前的几个。6.一种海量数据处理系统,其特征在于,包括:关键词获取模块,用于获取用户输入的关键词;关键词编码模块,用于根据预设的编码方式对所述关键词编码后得到对应的第一数据;数据获取模块,用于获取海量数据;数据解码模块,用于对所述海量数据按照对应的解码方式解码后得到对应的第二数据;结果输出模块,用于根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。7.根据权利要求6所述的系统,其特征在于,还包括:结果关联模块,用于将所述匹配结果进行关联分析,得到含关联信息的匹配结果;格式输出模块,用于将所述含关联信息的匹配结果根据数据上传格式和/或数据下载格式输出成相关格式文件。8.根据权利要求6所述的系统,其特征在于,还包括:数据解析模块,用于在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,将所述海量数据按各自协议格式解析到tcp、udp层并存储。9.根据权利要求8所述的系统,其特征在于,还包括:连接管理模块,用于在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,将解析后的数据按流进行流量统计和应用协议识别。2CN106776794A权利要求书2/2页10.根据权利要求6所述的系统,其特征在于,还包括:模板学习模块,用于通过学习以往的模板编写经验,对每个匹配结果进行统计排名,从一个关键字的多个匹配结果中选择统计排名靠前的几个。3CN106776794A说明书1/5页一种海量数据处理方法及系统技术领域[0001]本发明实施例涉及自动化技术领域,尤其涉及一种海量数据处理方法及系统。背景技术[0002]我们日常工作环境中存在大量历史积累的网络数据包,实际网络环境中存在大量实时网络数据流,这些数据中随时会出现我们想要的信息。如何高效提取这些信息以及这些信息的上下文成为很多人迫切的需求,而且这些信息可能以各种形式存在原始报文中,比如以unicode+base64编码、然后经过zlib压缩,比如经过md5加密,要想从海量数据中检测到这些信息及其上下文,就需要进行协议解析。而协议数据分析工作是协议解析的基础,协议分析是否全面、深入直接影响了协议解析的质量。[0003]现有的全人工的协议分析工作方式存在量大重复效率低、人员的频繁更替无法保证分析质量、分析经验无法有效积累并传承等问