预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114297347A(43)申请公布日2022.04.08(21)申请号202111630171.9(22)申请日2021.12.28(71)申请人北京金堤科技有限公司地址100098北京市海淀区知春路65号院1号楼B座20层2001号(72)发明人刘阳崔圣君郭韩钰冷小萱(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人贺晓蕾(51)Int.Cl.G06F16/33(2019.01)G06F16/35(2019.01)G06F40/289(2020.01)G06K9/62(2022.01)权利要求书2页说明书11页附图5页(54)发明名称行业类别的确定方法、装置、存储介质和电子设备(57)摘要本公开涉及一种行业类别的确定方法、装置、存储介质和电子设备,涉及电子信息技术领域,该方法包括:获取目标企业文本信息;在目标企业文本信息中提取第一企业关键词;将第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;将预测样本输入基于关键词库确定的分类模型,得到目标企业的行业类别;其中,预测样本包括第二企业关键词。经过组合或拆分后得到第二企业关键词能体现出更强的行业特征。将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。CN114297347ACN114297347A权利要求书1/2页1.一种行业类别的确定方法,其特征在于,所述方法包括:获取目标企业文本信息;在所述目标企业文本信息中提取第一企业关键词;将所述第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;将预测样本输入基于所述关键词库确定的分类模型,得到目标企业的行业类别;其中,所述预测样本包括所述第二企业关键词。2.根据权利要求1所述的方法,其特征在于,所述分类模型通过以下方式训练得到:获取行业文本信息和与行业类别对应的企业文本信息;所述行业文本信息中包括:若干所述行业类别及与各个所述行业类别对应的行业特征信息;从所述行业特征信息中提取行业关键词;从所述企业文本信息中提取第三企业关键词;根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库;根据所述关键词库训练所述分类模型。3.根据权利要求2所述的方法,其特征在于,所述从所述行业特征信息中提取行业关键词,包括:按照预设的行业无用词库去除所述行业特征信息中的无用词;根据标点符号切分去除无用词后的所述行业特征信息,得到若干行业特征文本;根据所述若干行业特征文本,生成所述行业关键词。4.根据权利要求3所述的方法,其特征在于,所述根据所述若干行业特征文本,生成所述行业关键词,包括:针对各个所述行业特征文本:确定所述行业特征文本的字符长度是否大于或者等于预设长度阈值,如果是,对所述行业特征文本进行分词,得到所述行业关键词,否则,确定所述行业特征文本为所述行业关键词。5.根据权利要求2所述的方法,其特征在于,所述从所述企业文本信息中提取第三企业关键词,包括:按照不同切分粒度切分所述企业文本信息,得到所述第三企业关键词。6.根据权利要求5所述的方法,其特征在于,在所述按照不同切分粒度切分所述企业文本信息之前,进一步包括:按照预设的企业无用词库去除所述企业文本信息中的无用词;所述按照不同切分粒度切分所述企业文本信息,包括:按照不同切分粒度切分去除无用词后的所述企业文本信息。7.根据权利要求5或6所述的方法,其特征在于,所述根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库,包括:计算所述企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度;根据所述相似度,在不同切分粒度中选定目标切分粒度;将所述目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将所述目标关键词及其对应的行业类别添加到所述关键词库。2CN114297347A权利要求书2/2页8.根据权利要求7所述的方法,其特征在于,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:从所述目标关键词中抽取实体词;针对各个所述行业类别:根据所述实体词,对所述行业类别下的目标关键词进行聚类,得到若干关键词集合;根据所述若干关键词集合,确定所述行业类别的种子关键词;所述根据所述关键词库训练所述分类模型,包括:根据所述种子关键词及其对应的行业类别,训练所述分类模型。9.根据权利要求8所述的方法,其特征在于,所述根据所述若干关键词集合,确定所述行业类别的种子关键词,包括:针对各个所述关键词集合:统计所述关键词集合中各个目标关键词在所述行