一种风险地址识别方法、装置、设备和存储介质-豆柴文库

一种风险地址识别方法、装置、设备和存储介质.pdf

2023-05-25

10金币

673KB

17页

努力****晓骞

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111711618A(43)申请公布日2020.09.25(21)申请号202010489800.X(22)申请日2020.06.02(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人沈淑顾雷吴潇丽张天翼王爱凌王鑫云王嘉浩邹泊滔孙清清钱堃王淑钰(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人刘立升(51)Int.Cl.H04L29/06(2006.01)权利要求书2页说明书9页附图5页(54)发明名称一种风险地址识别方法、装置、设备和存储介质(57)摘要本申请公开了一种风险地址识别方法、设备和装置，该方法包括：获取待识别地址数据；将所述待识别地址数据通过第一预设模型划分为多个字符组；确定划分后的每个字符组对应的词嵌入向量；将每个字符组对应的词嵌入向量输入风险地址识别网络模型，得到所述待识别地址数据是否为风险地址。CN111711618ACN111711618A权利要求书1/2页1.一种风险地址识别方法，该方法包括：获取待识别地址数据；将所述待识别地址数据通过第一预设模型划分为多个字符组；确定划分后的每个字符组对应的词嵌入向量；将每个字符组对应的词嵌入向量输入风险地址识别网络模型，得到所述待识别地址数据是否为风险地址。2.根据权利要求1所述的方法，每个字符组对应的词嵌入向量为通过第二预设模型预先训练得到的，其中，通过第二预设模型预先训练得到词嵌入向量，具体包括：获取地址库，所述地址库中存储有收集到的地址数据；将所述地址库中的地址数据通过所述第一预设模型划分为多个字符组；将划分后的每个字符组输入所述第二预设模型进行训练，以得到每个字符组的词嵌入向量。3.根据权利要求2所述的方法，所述风险地址识别网络模型为对抗训练模型。4.根据权利要求3所述的方法，所述对抗训练模型的训练步骤包括：获取训练样本，所述训练样本包括已标记为风险地址的数据，以及使得机器学习算法产生误判的地址数据；将所述训练样本中的地址数据通过第一预设模型划分为多个字符组；确定划分后的每个字符组对应的词嵌入向量，所述词嵌入向量是通过第二预设模型训练得到的；将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练。5.根据权利要求4所述的方法，在所述将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练的步骤之前，所述训练步骤还包括：对每个字符组的词嵌入向量进行归一化操作。6.根据权利要求5所述的方法，在对每个字符组的词嵌入向量进行归一化操作的步骤中，归一化公式为：其中，fj为所有训练样本中第i个词出现的频率；vk为第k个词的词嵌入向量；为第k个词正则化后的词嵌入向量。7.根据权利要求5所述的方法，在所述将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练步骤中，所述训练方法还包括：在归一化后的向量中添加扰动项，并在所述对抗训练模型的损失函数中增加所述扰动项带来的损失。8.根据权利要求7所述的方法，在归一化后的向量中添加的扰动项公式为：radv＝-∈g/‖g‖2；2CN111711618A权利要求书2/2页所述损失函数如下：其中，radv为扰动项；s为输入向量；y为输出向量；为模型的参数预估值；θ为模型的参数真实值；Ladv为扰动项的损失函数。9.根据权利要求4所述的方法，在所述获取待识别地址数据的步骤之前，所述方法还包括：获取原始地址数据，对所述原始地址数据进行清洗以得到待识别地址数据；和/或，在所述获取地址库步骤之前，所述方法还包括：对地址库中的数据进行数据清洗；和/或，在所述获取训练样本的步骤之前，所述方法还包括：对训练样本中的数据进行数据清洗。10.根据权利要求1至9中任一项所述的方法，所述第一预设模型为三元Trigram模型；和/或，所述第二预设模型为Word2Vec模型。11.一种风险地址识别设备，包括：至少一个处理器和存储器，所述存储器存储有程序，并且被配置成由所述至少一个处理器执行以下步骤：获取待识别地址数据；将所述待识别地址数据通过第一预设模型划分为多个字符组；确定划分后的每个字符组的对应词嵌入向量；将每个字符组对应的词嵌入向量输入风险地址识别网络模型，得到所述待识别地址数据是否为风险地址。12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现权利要求1至10中任一项所述的风险地址识别方法。13.一种风险地址识别装置，该装置包括：获取模块，所述获取模块用于获取待识别地址数据；划分模块，所述划分模块包括第一预设模型，用于将所述待识别地址数据通过所述第一预设模型划分为多个字符组；确定模块，所述确定模块用于确定划分后的每个字符组

相关资料

一种风险地址识别方法、装置、设备和存储介质.pdf

本申请公开了一种风险地址识别方法、设备和装置，该方法包括：获取待识别地址数据；将所述待识别地址数据通过第一预设模型划分为多个字符组；确定划分后的每个字符组对应的词嵌入向量；将每个字符组对应的词嵌入向量输入风险地址识别网络模型，得到所述待识别地址数据是否为风险地址。

2023-05-25

673KB

风险包裹的识别方法、装置、设备和存储介质.pdf

本发明公开了一种风险包裹的识别方法、装置、设备和存储介质,针对目前快递企业没有较好的方法预防快递恶意投诉与恶意敲诈的问题,通过创建风险包裹关系的知识图谱,所述知识图谱包含风险用户、地址、手机号及IP在内的多个实体及实体之间的关联关系;获取待识别包裹的寄递信息,基于知识图谱对寄递信息进行风险包裹识别,判断是否为风险包裹寄递行为,生成待识别包裹的风险等级,从快递包裹下单时就进行可能存在风险包裹的检测,做到从源头预防发生恶意投诉及恶意理赔的情况,减少快递公司的经济损失,提升品牌效力。

2023-05-24

520KB

IP地址使用机构识别方法、装置、设备及存储介质.pdf

本申请提供一种IP地址使用机构识别方法、装置、设备及存储介质，涉及互联网技术领域。向目标IP地址对应的目标设备发送第一协议类型的请求消息，接收目标设备返回的响应消息，根据第一协议类型对应的报文格式，从响应消息中获取安全套接字SSL证书，解析SSL证书得到SSL证书中的持有者字段数据，根据持有者字段数据，采用预设的持有机构证书规则库进行匹配，确定持有者字段数据对应的目标证书持有机构，确定目标证书持有机构为目标IP地址的使用机构，根据SSL证书得到的证书持有机构为该SSL证书的持有机构，IP地址使用了该SSL

2023-06-04

1.9MB

地址识别方法、装置、电子设备以及存储介质.pdf

本公开提供了地址识别方法、装置、电子设备以及存储介质，涉及人工智能、计算机技术领域，尤其涉及知识图谱、深度学习、云计算领域。具体实现方案为：对用于描述事件的待识别内容进行地点实体识别，得到目标地点实体，目标地点实体包括标准化地点实体、别名地点实体和标志性地点实体其中至少之一；针对目标地点实体中每种类型的地点实体，根据地址图谱，确定与地点实体相对应的标准化地址，得到至少一个标准化地址，地址图谱包括标准化地点实体、别名地点实体和标志性地点实体，以及各地点实体之间的对应关系；从至少一个标准化地址中，确定与待识别

2023-07-24

881KB

一种地址识别方法及装置、存储介质.pdf

本申请实施例提供了一种地址识别方法及装置、存储介质，包括：根据预设分类维度，从待识别地址信息中提取至少一组词向量和至少一个词统计数量；利用预设神经网络模型，依次预测每组词向量中、一个词向量与相邻的下一个词向量之间的关联概率，得到每组词向量对应的一组关联概率；预设神经网络模型为通过无监督训练得到的模型；将至少一组词向量对应的至少一组关联概率和至少一个词统计数量输入预设分类模型中，得到待识别地址信息对应的分类结果，分类结果用于识别待识别地址信息的真实性；预设分类模型为通过有监督训练得到的模型。

2023-06-14

485KB