预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905928A(43)申请公布日2023.04.04(21)申请号202211664899.8(22)申请日2022.12.23(71)申请人焦点科技股份有限公司地址210032江苏省南京市江北新区丽景路7号(72)发明人张爱民房鹏展(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249专利代理师陈建和(51)Int.Cl.G06F18/24(2023.01)G06F18/214(2023.01)G06N3/0895(2023.01)G06F40/211(2020.01)G06F40/289(2020.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于半监督学习的询盘异常检测方法(57)摘要本发明公开了一种基于半监督学习的询盘异常检测方法,1)准备用于外贸询盘检测训练与测试的数据,所述数据包括正常询盘数据、垃圾询盘数据;2)数据预处理,步骤包括噪词形变换、样本扩充;3)加载Bert‑Large模型,提取文本的Embedding;4)设定生成器与判别器模型架构:定义生成器Generator、判别器Discriminator模型结构和损失函数;5)加载Generator、Discriminator模型,利用正常询盘向量数据,训练模型;就能测试模型的准确率。CN115905928ACN115905928A权利要求书1/2页1.一种基于半监督学习的询盘异常检测方法,其特征在于,包括如下步骤:步骤一:准备用于外贸询盘检测训练与测试的数据,所述数据包括正常询盘数据、垃圾询盘数据;步骤二:数据预处理,步骤包括词形变换、样本扩充;步骤三:加载Bert‑Large模型,提取文本的Embedding;Embedding的本质是用一个较低维度的向量来代替较高维度的原始特征;其中Bert‑large模型,是一个24层Encoder的Transformer结构;步骤四:设定生成器与判别器模型架构:定义生成器Generator、判别器Discriminator模型结构和损失函数;其中生成器模型包括两个特征编码器Encoder,一个特征解码器Decoder,其中Encoder的作用在于对特征进行降维,而Decoder的作用在于对特征的生成;而判别器模型就是一个多层的DNN二分类模型,其倒数第二层的输出维度为256维,用于计算句子特征向量SequenceEmbedding和句向量SyntheticEmbedding的均方误差;步骤五:加载Generator、Discriminator模型,利用正常询盘向量数据,训练模型;步骤六:基于以训练好的Generator和Discriminator以及测试集的embedding,测试模型的准确率。2.如权利要求1所述的一种针对外贸产品的垃圾询盘检测方法,其特征在于:所述步骤一中,从已有询盘数据中基于询盘主题Object、询盘内容Content,以及询盘标记字段Check_it_efflect,处理成文本标签对Object+Content,Label的形式,并且区分好正常询盘数据与垃圾询盘数据集。3.如权利要求1所述的检测方法,其特征在于:所述步骤二中,数据预处理还包括如下步骤:利用词形还原、词形扩充、符号转换方法将文本标签对中的产品名称变换成具有不同词形的文本以扩充样本。4.如权利要求1所述的检测方法,其特征在于:所述步骤三中,采用预训练语言模型Bert‑Large模型,通过分词器获得的句子映射,将每一条样本的映射输入模型中,获得他们的句子特征向量SequenceEmbedding。5.如权利要求1所述的检测方法,其特征在于:所述步骤四中,生成器由Encode1–>Decoder1–>Encode2这样的结构构成,目的在于生成和原句子特征向量尽可能相似的句向量SyntheticEmbedding;判别器就是一个多层DNN二分类网络,模型建立还包括如下步骤:步骤4‑1:定义2个相同的Encoder结构,网络结构为多层DNN;步骤4‑2:定义1个Decoder结构,网络结构依次为DNN‑>GPT2‑>DNN;步骤4‑3:定义判别器,网络结构为多层DNN二分类网络;步骤4‑4:定义损失函数,Generator损失函数分为三个部分:Encode1得到的隐变量和Encode2得到的隐变量的均方误差Lenc;Decoder1得到的SyntheticEmbedding与SequenceEmbedding的范数误差Lcon;SequenceEmbedding在Discriminator中的输出与SyntheticEmbedding在Discriminator中的输出的均方误差Ladv;把这三个误差分别按照一定的权重相加就得到生成器总误差;判别器