预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905852A(43)申请公布日2023.04.04(21)申请号202210818147.6(22)申请日2022.07.12(71)申请人南京航空航天大学地址211106江苏省南京市江宁区将军大道29号(72)发明人倪宣凡李丕绩(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249专利代理师吴旭(51)Int.Cl.G06F18/214(2023.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书1页说明书5页附图1页(54)发明名称基于预训练提示的故事生成方法、系统、存储介质和终端(57)摘要本发明公开了一种基于预训练提示的故事生成方法,包括以下步骤:输入故事开头至第一预训练模型,所述故事开头包含多个句子,所述第一预训练模型生成对应每个句子的事件推理;根据事件的类型,填入不同的问题模板中,得到关于故事上文的问题;使用问答模型,对问题进行回答,生成答案,得到答案集合;对答案集合中的每一个答案,使用第二预训练模型计算其困惑度,并选择得分最小的答案作为故事下文。本发明针对深度神经网络模型的训练缺少数据集的问题,通过构建优质的提示模板,充分激发预训练模型的潜能,帮助模型回忆起训练时学到的知识,来较好地完成下游任务。CN115905852ACN115905852A权利要求书1/1页1.一种基于预训练提示的故事生成方法,其特征在于,包括以下步骤:1)输入故事开头至第一预训练模型,所述故事开头包含多个句子,所述第一预训练模型生成对应每个句子的事件推理;2)根据事件的类型,填入不同的问题模板中,得到关于故事上文的问题;3)使用问答模型,对问题进行回答,生成答案,得到答案集合;4)对答案集合中的每一个答案,使用第二预训练模型计算其困惑度,并选择得分最小的答案作为故事下文。2.如权利要求1所述的一种基于预训练提示的故事生成方法,其特征在于,所述第一预训练模型为Para‑Comet预训练模型。3.如权利要求1所述的一种基于预训练提示的故事生成方法,其特征在于,步骤2)的实现过程为:2.1)根据事件对应的类型构建不同的链接模板和问题模板;2.2)将步骤1)得到的事件推理填入对应的链接模板中,并将故事开头拼接在链接模板之前,输入进RoBERTa模型进行生成,获得对应每个事件推理的角色,得到<事件,角色>对;2.3)将事件和角色填入问题模板中,得到最终的问题。4.如权利要求3所述的一种基于预训练提示的故事生成方法,其特征在于,步骤3)的实现过程为:将故事开头作为文档,和问题一起输入ELI5QA模型中进行生成候选答案集合;或者将问题和故事开头拼接起来,输入进BART模型中进行生成候选答案集合。5.如权利要求4所述的一种基于预训练提示的故事生成方法,其特征在于,步骤4)的实现过程为:将每个问题的答案集合合并,对集合中的每个元素即答案,使用第二预训练模型计算其困惑度Perplexity,选择困惑度最小的元素作为故事的下文,所述第二预训练模型为GPT2模型。6.一种基于预训练提示的故事生成系统,其特征在于,包括以下模块:1)常识推理模块;用于对输入的故事开头,使用Para‑COMET预训练模型,生成对应句子的推理事件;2)问题生成模块;用于根据推理事件的类型,将其填入不同的问题模板中,得到关于上文故事的多角度的引导提问;3)答案生成模块,通过使用ELI5QA模型或BART模型,对问题进行回答,生成故事下文的候选项集合;4)评分选择模块,用于对候选项集合中的每一个元素寄答案,使用GPT2模型计算其困惑度得分,选择得分最小的作为下文句子。7.一种存储介质,其特征在于,其上存储有计算机程序,该所述计算机程序被处理器执行时实现上述的基于预训练提示的故事生成方法。8.一种终端,其特征在于,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的基于预训练提示的故事生成方法。2CN115905852A说明书1/5页基于预训练提示的故事生成方法、系统、存储介质和终端技术领域[0001]本发明涉及基于预训练提示的故事生成方法、系统、存储介质和终端,属于计算机领域中自然语言处理领域。背景技术[0002]开放式故事生成是自然语言处理领域中的经典任务,如何在生成时保证故事的一致性、连贯性和逻辑性,一直是一个非常具有挑战性的难题。随着深度神经网络的发展,参数更多、结构更复杂的深度神经网络模型在不断被提出并应用于故事生成中。但是,模型往往需要大量数据和时间训练,才能取得一定的效果,这在很多场景下是难以满足的。于是,有人便研究使用已经在大规模数据集上训练过的模型去执行不同的任务。之前的主流做法都是对预训练