预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113489620A(43)申请公布日2021.10.08(21)申请号202110533982.0(22)申请日2021.05.17(71)申请人昆山九华电子设备厂地址215000江苏省苏州市昆山开发区景王路700号(72)发明人王璐陈国平丁天一闫瑞林(74)专利代理机构北京科亿知识产权代理事务所(普通合伙)11350代理人杨芬(51)Int.Cl.H04L12/26(2006.01)G06K9/62(2006.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于transformer模型的网络协议识别方法(57)摘要本发明公开了一种基于transformer模型的网络协议识别方法,其包括以下步骤:构建语料库、对数据预处理、构建模型的编码器、构建模型的解码器、使用训练数据集对模型进行训练和用训练好的模型对测试数据集的协议类型进行识别。本发明首先构建语料库,然后对未知网络流量数据过滤只保留协议相关信息,然后通过WordPiece分词、one‑hot编码将数据转化为词向量,再添加上相对位置编码,在语料库上利用多头注意力机制预训练模型,提取每个词在上下文的依赖关系,然后将需要识别的协议流量输入模型,最后通过分类器实现网络协议的识别。本发明使得网络协议识别具有较高的准确率和效率、不需要人工特征选择、可以并行化计算、更容易学习到长距离依赖信息的优点。CN113489620ACN113489620A权利要求书1/2页1.一种基于transformer模型的网络协议识别方法,其特征在于:具体包括以下步骤:S1)构建语料库:通过采集已知的各类协议数据包,整合到一个文件中,使用标签工具对协议数据的格式信息进行标注,构建出具有不同协议类型的语料库;S2)对数据预处理,得到训练数据集和测试数据集;S3)构建模型的编码器;S4)构建模型的解码器;S5)使用训练数据集,对模型进行训练;S6)使用测试数据集,输入到训练好的模型,对数据的协议类型进行识别。2.如权利要求1所述的基于transformer模型的网络协议识别方法,其特征在于:所述步骤S2中对数据预处理,其包括以下步骤:S21)对数据过滤,只保留与协议相关的部分,得到词数据;S22)对数据分词:采用WordPiece方法,首先将所述词数据中的每个词分成一个一个的字符,然后在词的范围内统计字符对出现的次数,每次将次数最多的字符对保存起来,直到循环次数结束,得到若干分词结果;S23)对数据编码转化为词向量:采用one‑hot方法将步骤S22中的分词结果转化为词向量;S24:将步骤S23得到的词向量数据划分为训练数据集和测试数据集。3.如权利要求2所述的基于transformer模型的网络协议识别方法,其特征在于:所述步骤S3构建模型的编码器,其包括以下步骤:S31:构建编码器层;S32:子层之间构建残差连接;S33:重复执行步骤S31和步骤S32至少四次。4.如权利要求3所述的基于transformer模型的网络协议识别方法,其特征在于:所述步骤S4构建模型的解码器,其包括以下步骤:S41:构建解码器层,所述解码器层包含有Masked多头注意力机制层,将一段序列中的部分词掩盖掉,通过预测被掩盖的词来判断模型的准确性;S42:子层之间构建残差连接;S43:重复步骤S41和步骤S42至少四次;S44:构建线性层和softmax层。5.如权利要求2所述的基于transformer模型的网络协议识别方法,其特征在于:在所述步骤S5中,将所述步骤S1得到的语料库和步骤S2得到的训练数据集输入到模型中进行训练;所述步骤S6中需要将步骤S2得到的测试数据集输入到模型中训练。6.如权利要求2所述的基于transformer模型的网络协议识别方法,其特征在于:所述步骤S23)对数据编码转化为词向量,其包括采用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效,通过遍历,把每个分词结果转化为词向量。7.如权利要求3所述的基于transformer模型的网络协议识别方法,其特征在于:所述步骤S31中构建的所述编码器层包括多头注意力机制层、第一ADD&Normalize层、FeedForward前馈神经网络层和第二ADD&Normalize层;其中,所述多头注意力机制层用于获取2CN113489620A权利要求书2/2页各词之间的依赖程度;所述第一ADD&Normalize层与所述第二ADD&Normalize层作用相同,用于归一化;所述FeedForward前馈神经网络层用于增加模型表现力。8.如权利要求7所述的基于transformer模型的网络协议识别方法,其特征在于:所述多头注意力机制