预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905554A(43)申请公布日2023.04.04(21)申请号202211269241.7(22)申请日2022.10.17(71)申请人北京邮电大学地址100876北京市海淀区西土城路10号(72)发明人周锋乔雷(51)Int.Cl.G06F16/36(2019.01)G06F16/35(2019.01)G06N5/025(2023.01)权利要求书2页说明书6页附图7页(54)发明名称科支持的问题。一种基于多学科分类的中文学术知识图谱构建方法(57)摘要本申请涉及一种基于多学科分类的中文学术知识图谱构建方法。该方法包括:获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、单一类别等基本信息,生成初始文献数据集;设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集;将所述单学科分类的学术文献数据集输入预设学科分类模型,完成学科分类模型训练,生成学科分类模型;将初始文献数据集输入完成训练的学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱。通过本申请的方法,解决了学术资源庞杂混乱,存CN115905554A储、检索困难,学术论文领域划分混乱,缺少多学CN115905554A权利要求书1/2页1.一种基于多学科分类的中文学术知识图谱构建方法,其特征在于包括以下步骤:步骤S101,获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息,生成初始文献数据集;步骤S102,设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集;步骤S103,将所述单学科分类的学术文献数据集输入预设学科分类模型,完成学科分类模型训练,生成学科分类模型;步骤S104,将初始文献数据集输入完成训练的学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;步骤S105,通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱。2.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S102中生成单学科分类的学术文献数据集的具体方法为:对所获去的初始文献数据集中的每篇文献,在步骤S101中所述数据类别中均有领域类别,这是依据中国图书馆分类法进行领域划分,将中国图书馆分类法的所有领域依据预设规则映射到教育部公布的相应一级学科中;具体规则包括,最大领域匹配原则、舍弃多学科交叉领域文献、合并高匹配度学科等;然后将初始文献数据集的领域类别删除,增加学科类别,将每篇文献均划分到映射后的学科类别中,完成初始文献数据集的单学科划分,生成单学科分类的学术文献数据集。3.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S103中将单学科分类的学术文献数据集输入预设学科分类模型进行训练,生成学科分类模型的具体方法为:将单学科分类的学术文献数据集中的文献的文献摘要输入到预训练语言模型中得到文献摘要的向量表示,将文献摘要的向量表示输入到学科分类模型中并使学科分类模型输出接入一个全连接层和激活函数得到学科分类预测,使用得到的学科分类预测和真实分类计算损失函数,最后根据损失函数和前述模型的计算结果基于反向传播算法更新模型参数完成一次训练。重复上述步骤直至损失函数降低到阈值以下。4.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S104中将初始文献数据集输入学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集的具体方法为:将初始文献数据集中文献的摘要部分以标点为界限进行分句处理,将所有分句分别输入学科分类模型得到n个学科分类,去除其中预测概率值小于阈值的学科,得到文献的m个学科分类,最后将m个学科分类集成,即合并相同的学科分类,计算各学科分类在m个学科分类所占比例,按照比例数值排序,得到文献所属的所有学科分类。5.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S105中通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱具体方法为:根据预设本体模型对多学科分类的文献数据集进行实体抽取,根据本体模型中本体间的关系使用基于规则的关系抽取模型对多学科分类的文献数据集进行关系抽取,具体本体模型