特征提取方法、装置、电子设备和存储介质-豆柴文库

特征提取方法、装置、电子设备和存储介质.pdf

2023-06-01

10金币

787KB

22页

努力****幻翠

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965028A(43)申请公布日2023.04.14(21)申请号202211734202.XG06N5/04(2023.01)(22)申请日2022.12.30G06N3/045(2023.01)(71)申请人合肥讯飞数码科技有限公司地址230088安徽省合肥市（安徽）自由贸易试验区合肥市高新区望江西路666号人工智能云服务平台研发楼(72)发明人吴飞洪帅方四安(74)专利代理机构北京路浩知识产权代理有限公司11002专利代理师杨明月(51)Int.Cl.G06F40/30(2020.01)G06F16/33(2019.01)G06F16/332(2019.01)G06N5/02(2023.01)权利要求书2页说明书15页附图4页(54)发明名称特征提取方法、装置、电子设备和存储介质(57)摘要本发明公开了特征提取方法、装置、电子设备和存储介质，属于自然语言处理技术领域，其中，特征提取方法包括：获取待预测数据，对待预测数据进行与待预测数据的数据类型匹配的预处理，得到待预测数据的表示；基于与待预测数据的数据类型匹配的注意力机制，对待预测数据的表示进行特征提取，得到待预测数据的特征向量。本发明可以实现对复杂结构的数据类型的知识进行表征，增强了数据推理的可解释性过程，从而增加人机互理解过程的可解释性，可有效地提升人机交互场景下意图互理解的准确性和效率。CN115965028ACN115965028A权利要求书1/2页1.一种特征提取方法，其特征在于，包括：获取待预测数据，对所述待预测数据进行与所述待预测数据的数据类型匹配的预处理，得到所述待预测数据的表示；基于与所述待预测数据的数据类型匹配的注意力机制，对所述待预测数据的表示进行特征提取，得到所述待预测数据的特征向量。2.根据权利要求1所述的特征提取方法，其特征在于，所述待预测数据的数据类型包括以下至少一项：三元组数据类型、文本对数据类型、层次化数据类型和长文本数据类型。3.根据权利要求2所述的特征提取方法，其特征在于，所述对所述待预测数据进行与所述待预测数据的数据类型匹配的预处理，得到所述待预测数据的表示，包括：在所述待预测数据包括三元组数据的情况下，对所述三元组数据中的三种信息进行拼接处理，得到第一序列数据，对所述第一序列数据对应的字向量和段向量进行初始化，得到所述三元组数据的表示；在所述待预测数据包括文本对数据的情况下，对所述文本对数据中的问题文本和回答文本进行拼接处理，得到第二序列数据，对所述第二序列数据对应的字向量、段向量和位置向量进行初始化，得到所述文本对数据的表示；在所述待预测数据包括层次化数据的情况下，基于满二叉树的形式对所述层次化数据进行编码，得到第三序列数据，对所述第三序列数据对应的字向量和位置向量进行初始化，得到所述层次化数据的表示；在所述待预测数据包括长文本数据的情况下，按照段落划分所述长文本数据，针对每个段落进行句子划分，并以句子为单位进行字向量和位置向量的初始化，得到所述长文本数据的表示，将所述长文本数据的表示存储为三维矩阵，其中，所述三维矩阵的第一维表示句子长度，第二维表示段落个数，第三维表示所述长文本数据。4.根据权利要求3所述的特征提取方法，其特征在于，所述基于与所述待预测数据的数据类型匹配的注意力机制，对所述待预测数据的表示进行特征提取，得到所述待预测数据的特征向量，包括：基于稀疏注意力机制，对所述三元组数据的表示、文本对数据的表示和层次化数据的表示进行特征提取，得到第一特征向量，和/或，基于嵌套稀疏注意力机制，对所述长文本数据的表示进行特征提取，得到第二特征向量；基于稀疏注意力机制，对所述第一特征向量和/或第二特征向量进行特征提取，得到所述待预测数据的特征向量。5.根据权利要求1‑4中任一项所述的特征提取方法，其特征在于，所述方法还包括：获取训练数据样本，对所述训练数据样本进行与所述训练数据的数据类型匹配的预处理，得到所述训练数据样本的表示；基于与所述训练数据样本的数据类型匹配的注意力机制，对所述训练数据样本的表示进行特征提取，得到所述训练数据样本的特征向量；基于所述训练数据样本的特征向量，执行预训练任务，确定所述预训练任务的损失，根据所述损失对预训练语言模型的参数进行迭代优化。6.根据权利要求5所述的特征提取方法，其特征在于，所述预训练任务包括：掩码语言模型构建、实体级别的词关系预测和对比预测编码。2CN115965028A权利要求书2/2页7.根据权利要求5所述的特征提取方法，其特征在于，所述训练数据样本包括以下至少一项：三元组数据样本、文本对数据样本、层次化数据样本和长文本数据样本；所述基于与所述训练数据样本的数据类型匹配的注意力机制，对所述训练数据样本的表示进行特征提

相关资料

特征提取方法、装置、电子设备和存储介质.pdf

本发明公开了特征提取方法、装置、电子设备和存储介质，属于自然语言处理技术领域，其中，特征提取方法包括：获取待预测数据，对待预测数据进行与待预测数据的数据类型匹配的预处理，得到待预测数据的表示；基于与待预测数据的数据类型匹配的注意力机制，对待预测数据的表示进行特征提取，得到待预测数据的特征向量。本发明可以实现对复杂结构的数据类型的知识进行表征，增强了数据推理的可解释性过程，从而增加人机互理解过程的可解释性，可有效地提升人机交互场景下意图互理解的准确性和效率。

2023-06-01

787KB

特征提取方法、装置、存储介质及电子设备.pdf

本公开提供一种特征提取方法、装置、存储介质及电子设备；涉及人工智能技术领域。所述方法包括：根据待识别数据和所述待识别数据中的局部数据得到预设神经网络的输入数据；利用所述预设神经网络对所述输入数据进行融合特征提取，得到所述待识别数据的目标特征。本公开利用神经网络对全局数据和局部数据进行融合特征提取，可以提高神经网络识别的特征精度。

2023-07-21

1MB

模型训练和特征提取方法、装置、电子设备及存储介质.pdf

本申请提供一种模型训练和特征提取方法、装置、电子设备及存储介质，包括：针对第i次模型训练，获取图像样本集中的一张样本图像对应的至少三张增强图像；将至少三张增强图像中的一张增强图像输入至在线特征提取模型中，得到待查特征向量，并将至少三张增强图像中的剩余增强图像输入至目标特征提取模型中，得到至少两个正样本特征向量；在基于待查询特征向量和i次模型训练所得到的正样本特征向量确定的第一损失值不满足预设条件时，基于第一损失值对目标特征提取模型和在线特征提取模型中的参数进行更新，在更新时，利用该张样本图像的至少两个正样

2023-07-25

757KB

客户特征提取方法、装置、电子设备及存储介质.pdf

本申请实施例公开一种客户特征提取方法、装置、电子设备及存储介质，其中，客户特征提取方法包括：通过训练完成的双向语言模型对所述目标服务记录文本进行语义识别，得到第一语义向量；通过所述双向语言模型对多个客户特征中每个客户特征分别对应的种子句子进行语义识别，得到与各个种子句子的第二语义向量；根据所述第一语义向量及所述各个种子句子的第二语义向量，确定所述目标服务记录文本与所述各个种子句子的相似度；根据所述目标服务记录文本与所述各个种子句子的相似度，从所述多个客户特征中确定出与所述目标服务记录文本对应的目标客户特征

2023-07-24

1.2MB

图像特征提取方法、装置、存储介质及电子设备.pdf

本公开涉及一种图像特征提取方法、装置、存储介质及电子设备，以解决相关技术中图像特征提取存在的耗费大量网络带宽，以及耗费人脸识别终端大量计算资源的问题。本公开的图形特征提取方法包括：确定多个人脸识别终端的运行状况；根据各人脸识别终端的运行状况，将待进行特征提取的多个人员图像进行分包处理；将分包后的人员图像分发给对应运行状态的人脸识别终端，以使所述多个人脸识别终端对接收到的人员图像进行特征提取；分别接收所述多个人脸识别终端发送的特征信息。

2023-06-21

507KB