预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110795929A(43)申请公布日2020.02.14(21)申请号201910167062.4(22)申请日2019.03.06(30)优先权数据16/038,0862018.07.17US(71)申请人富士施乐株式会社地址日本东京都(72)发明人弗朗辛·陈赵健Y·Y·陈(74)专利代理机构北京三友知识产权代理有限公司11127代理人黄纶伟李辉(51)Int.Cl.G06F40/258(2020.01)权利要求书3页说明书9页附图8页(54)发明名称生成用于概括对话文件的标题的系统和方法(57)摘要提供了生成用于概括对话文件的标题的系统和方法。该方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向多个文件中的各文件应用标题生成计算机模型,以基于关联内容特征生成标题;将所生成的标题附加到多个文件中的各文件,其中,标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与多个文件的内容特征有关的第一域的第一未标记数据集;和来自与第一域不同的第二域的第二预标记数据集。CN110795929ACN110795929A权利要求书1/3页1.一种生成存储平台中的文件的标题的方法,所述方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向所述多个文件中的各文件应用标题生成计算机模型,以基于所述关联内容特征生成标题;将所生成的标题附加到所述多个文件中的各文件,其中,所述标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与所述多个文件的内容特征有关的第一域的第一未标记数据集;以及来自与所述第一域不同的第二域的第二预标记数据集。2.根据权利要求1所述的方法,其中,所述神经网络是通过将从第一数据集提取的词汇与从第二数据集提取的词汇进行组合来训练的。3.根据权利要求1所述的方法,所述神经网络的训练还包括以下步骤:从第一数据集提取内容特征;基于来自所述第一数据集的提取内容特征,生成第一初步标题集;以及使用所生成的初步标题和所述第一数据集,在所述第一域上训练所述神经网络。4.根据权利要求3所述的方法,其中,生成第一初步标题集的步骤包括:从所述第一未标记数据集中的多个文件中的各文件的文本提取内容特征的一部分。5.根据权利要求3所述的方法,所述神经网络的训练还包括以下步骤:基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使训练后的神经网络适应所述第二域。6.根据权利要求5所述的方法,其中,基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇使训练后的神经网络适应所述第二域的步骤包括:执行辅助分类任务,以保持训练后的神经网络与所述第二预标记数据集对准。7.根据权利要求5所述的方法,所述神经网络的训练还包括以下步骤:使用所生成的初步标题和所述第二数据集,在所述第二域上对所述神经网络进行进一步重新训练;以及基于所述第一数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使重新训练后的神经网络适应所述第一域。8.根据权利要求7所述的方法,所述方法还包括以下步骤:基于所生成的标题,生成提供搜索功能的用户界面UI;以及响应于通过基于所生成的标题的所述UI接收到的搜索请求,显示至少一个文件。9.根据权利要求8所述的方法,所述方法还包括以下步骤:通过所述UI接收选择请求;基于所接收的选择请求,更新所述标题生成计算机模型。10.一种存储有以下程序的非暂时计算机可读介质,该程序使得计算机执行生成存储平台中的文件的标题的方法,所述方法包括以下步骤:接收多个文件,各文件具有关联内容特征;向所述多个文件中的各文件应用标题生成计算机模型,以基于所述关联内容特征生成标题;将所生成的标题附加到所述多个文件中的各文件,2CN110795929A权利要求书2/3页其中,所述标题生成计算机模型是通过使用以下内容的组合训练神经网络来创建的:来自与所述多个文件的内容特征有关的第一域的第一未标记数据集;以及来自与所述第一域不同的第二域的第二预标记数据集。11.根据权利要求10所述的非暂时计算机可读介质,其中,所述神经网络是通过将从第一数据集提取的词汇与从所述第二数据集提取的词汇进行组合来训练的。12.根据权利要求10所述的非暂时计算机可读介质,所述神经网络的训练还包括以下步骤:从第一数据集提取内容特征;基于来自所述第一数据集的提取内容特征,生成第一初步标题集;以及使用所生成的初步标题和所述第一数据集,在所述第一域上训练所述神经网络。13.根据权利要求12所述的非暂时计算机可读介质,所述神经网络的训练还包括以下步骤:基于所述第二预标记数据集以及从所述第一数据集和所述第二数据集提取的组合词汇,使训练后的神经网络适应所述第二域。1