用于确定行业类别的方法及装置-豆柴文库

用于确定行业类别的方法及装置.pdf

2023-07-24

10金币

427KB

17页

莉娜****ua

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254109A(43)申请公布日2022.03.29(21)申请号202111534796.5(22)申请日2021.12.15(71)申请人北京金堤科技有限公司地址100086北京市海淀区知春路65号院1号楼B座20层2001号(72)发明人李凯(74)专利代理机构北京工信联合知识产权代理有限公司11266代理人贾银秋(51)Int.Cl.G06F16/35(2019.01)G06F16/332(2019.01)权利要求书2页说明书12页附图2页(54)发明名称用于确定行业类别的方法及装置(57)摘要本发明实施例公开了一种用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序，包括：获取目标文本；对目标文本进行数据提取，获得与目标文本相关联的产品信息；以及基于经过训练的分类处理模型对产品信息进行分类处理，以确定目标文本的行业类别。本发明实施例为用户确定招投标数据的行业类别提供了便利，方便用户获取特定行业类别的招投标数据，降低了用户对于招投标数据的数据获取成本。CN114254109ACN114254109A权利要求书1/2页1.一种确定行业类别的方法，其特征在于，包括：获取目标文本；其中，所述目标文本包括：目标招标文本和/或目标投标文本；对所述目标文本进行数据提取，获得与所述目标文本相关联的产品信息；将所述产品信息输入经过训练的分类处理模型，得到所述目标文本的行业类别。2.根据权利要求1所述的方法，其特征在于，在所述获取目标文本之前还包括：获取多个样本文本；其中，所述样本文本包括：样本招标文本和/或样本投标文本；对每个样本文本进行数据提取，获得与每个样本文本相关联的产品信息；其中，多个样本文本的产品信息构成第一训练数据集；基于所述第一训练数据集对预先设定的分类处理模型进行训练，从而获得经过训练的分类处理模型。3.根据权利要求2所述的方法，其特征在于，还包括：提取每个样本文本的标题；将每个样本文本的标题添加到第一训练数据集中。4.根据权利要求2所述的方法，其特征在于，还包括：获取每个样本文本的正文内容；对每个样本文本的正文内容的起始处开始的第一预定数量的连续字符进行提取，获得每个样本文本的第一预定数量的连续字符；将每个样本文本的第一预定数量的连续字符添加到第一训练数据集中。5.根据权利要求2所述的方法，其特征在于，还包括：获取每个样本文本的正文内容；对正文内容进行关键词统计，以确定正文内容中每个关键词的词频；基于正文内容中每个关键词的词频，为每个样本文本确定第二预定数量的选定关键词；将每个样本文本的第二预定数量的选定关键词添加到第一训练数据集中。6.根据权利要求2所述的方法，其特征在于，对每个样本文本进行数据提取，获得与每个样本文本相关联的产品信息，包括：获取每个样本文本的正文内容；根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取，从而获得每个样本文本的产品信息。7.根据权利要求6所述的方法，其特征在于，在根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取之前，还包括：基于通用的产品字典和专用的产品字典，构建经过融合的产品字典；基于经过融合的产品字典对每个样本文本的正文内容中的产品信息进行标记，从而获取多个样本文本的第二训练数据集；根据所述第二训练数据集对预先设定的产品信息提取模型进行训练，从而获得经过训练的产品信息提取模型。8.根据权利要求7所述的方法，其特征在于，所述根据经过训练的产品信息提取模型对每个样本文本的正文内容进行数据提取，从而获得每个样本文本的产品信息，包括：2CN114254109A权利要求书2/2页根据经过训练的产品信息提取模型为正文内容中每个位置处的字符生成标签并且在标签中标记字符的产品信息概率；对正文内容中每个位置处的字符的标签进行遍历，根据字符的产品信息概率，获取作为产品信息的多个字符；将作为产品信息的多个字符确定为正文内容的产品信息。9.根据权利要求1所述的方法，其特征在于，在获取目标文本之后还包括:提取所述目标文本的标题、提取所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和提取所述目标文本中第二预定数量的选定关键词；所述将所述产品信息输入经过训练的分类处理模型，得到所述目标文本的行业类别，包括：将所述目标文本的产品信息、所述目标文本的标题、所述目标文本的从正文内容的起始处开始的第一预定数量的连续字符和所述目标文本的第二预定数量的选定关键词输入经过训练的分类处理模型，以确定所述目标文本的行业类别。10.根据权利要求5所述的方法，其特征在于，还包括，根据每个样本文本的第二预定数量的选定关键词确定每个样本信息的类别信息，将每个样本信息的类别信息添加到第一训练

相关资料

用于确定行业类别的方法及装置.pdf

本发明实施例公开了一种用于确定行业类别的方法及装置、电子设备、计算机可读存储介质和计算机程序，包括：获取目标文本；对目标文本进行数据提取，获得与目标文本相关联的产品信息；以及基于经过训练的分类处理模型对产品信息进行分类处理，以确定目标文本的行业类别。本发明实施例为用户确定招投标数据的行业类别提供了便利，方便用户获取特定行业类别的招投标数据，降低了用户对于招投标数据的数据获取成本。

2023-07-24

427KB

行业类别的确定方法、装置、存储介质和电子设备.pdf

本公开涉及一种行业类别的确定方法、装置、存储介质和电子设备，涉及电子信息技术领域，该方法包括：获取目标企业文本信息；在目标企业文本信息中提取第一企业关键词；将第一企业关键词与预先确定的关键词库进行匹配，将匹配失败的第一企业关键词进行组合或拆分，得到第二企业关键词；将预测样本输入基于关键词库确定的分类模型，得到目标企业的行业类别；其中，预测样本包括第二企业关键词。经过组合或拆分后得到第二企业关键词能体现出更强的行业特征。将第二企业关键词输入至基于关键词库训练的分类模型，从而得到目标企业的行业类别。这样，能够

2023-07-24

660KB

用于确定物品的方法和装置.pdf

本申请公开了用于确定物品的方法和装置，涉及计算机技术领域。该方法包括：获取用户偏好信息，根据目标位置信息，确定到达目标位置信息所指示的位置的、目标用户的目标用户属性信息，响应于确定目标用户属性信息与用户偏好信息中的用户属性信息的相似度满足相似度阈值，确定候选物品为与目标位置信息对应的目标物品。采用本方法可以提高确定物品的准确性以及效率。

2023-06-14

607KB

用于确定资源的方法和装置.pdf

本申请公开了用于确定资源的方法和装置，具体实现方案为：响应于接收到业务中某个资源的调度请求，获取业务的第一容器集合和第二容器集合；基于第一容器集合、第二容器集合和各个容器对应的第一因子，确定第一资源量和第二资源量，并生成与各个第一资源量和各个第二资源量相对应的资源总量；响应于资源总量大于阈值，基于容器评分，对第一容器集合和第二容器集合进行选取，生成选取后的各个容器对应的容器列表；基于容器列表和选取后的各个容器的第一因子，确定容器列表中各个容器的第三资源量，并生成与各个第三资源量相对应的目标资源总量。该方案

2023-06-14

756KB

用于确定信息的方法和装置.pdf

本申请公开了用于确定信息的方法和装置，涉及计算机技术领域。该方法包括：若接收到针对目标公式组的计算请求，执行迭代操作：将指针所指向的公式作为当前公式，识别当前公式中表达式中的每一个函数式；针对表达式中的每一个函数式，采用函数式所指示的函数的运算逻辑、以及函数式中的输入参数，确定函数式的函数值，并采用函数值，替换表达式中的所述函数式；基于每一个函数值确定表达式的结果，将指针指向当前公式的下一个公式，并将表达式的结果作为之后轮次迭代操作中的函数式的输入参数；若确定当前公式中存在预设字段，停止迭代操作并将在最后

2023-06-14

1.1MB