预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114996215A(43)申请公布日2022.09.02(21)申请号202210678453.4(22)申请日2022.06.16(71)申请人中国联合网络通信集团有限公司地址100033北京市西城区金融大街21号(72)发明人童俊杰韩振东赫罡(74)专利代理机构北京同立钧成知识产权代理有限公司11205专利代理师张娜黄健(51)Int.Cl.G06F16/14(2019.01)权利要求书3页说明书11页附图4页(54)发明名称文件搜索方法、装置、设备及存储介质(57)摘要本申请提供一种文件搜索方法、装置、设备及存储介质。该方法包括:接收用户发送的文件搜索请求,文件搜索请求中包括搜索关键词,用于用户从所存储的文件中搜索目标文件;根据搜索关键词搜索得到搜索文件集合,其中包含K个文件,均为用户所存储的全部文件中与搜索关键词的相似度超过预设阈值的文件;从搜索文件集合中确定与搜索关键词相似度最高的前P个文件;从用户的文件活动日志中确定P个历史活动文件,分别为与前P个文件中各文件相似度最高的文件;向用户显示文件搜索结果,其中K个文件按照与搜索关键词的相似度从高到低的顺序排序,P个历史活动文件被插入在前P个文件之后的接序位置。本申请的方法,提高了用户搜索效率。CN114996215ACN114996215A权利要求书1/3页1.一种文件搜索方法,其特征在于,所述方法包括:接收用户发送的文件搜索请求,所述文件搜索请求用于用户从所存储的文件中搜索目标文件,所述文件搜索请求中包括搜索关键词;根据所述搜索关键词搜索得到搜索文件集合,所述搜索文件集合中包含K个文件,所述K个文件为所述用户所存储的全部文件中与所述搜索关键词的相似度超过预设阈值的文件;从所述搜索文件集合中确定与所述搜索关键词相似度最高的前P个文件;从所述用户的文件活动日志中确定P个历史活动文件,所述P个历史活动文件为与所述前P个文件中各文件相似度最高的文件;向用户显示文件搜索结果,所述文件搜索结果中所述K个文件按照与所述搜索关键词的相似度从高到低的顺序排序,且所述P个历史活动文件被插入在所述前P个文件之后的接序位置。2.根据权利要求1所述的方法,其特征在于,所述向用户显示文件搜索结果之前,还包括:去除所述P个历史活动文件与所述K个文件中重复的文件。3.根据权利要求1或2所述的方法,其特征在于,所述P个历史活动文件被插入在所述前P个文件之后的接序位置之前,还包括:将所述P个历史活动文件按照与所述搜索关键词的相似度从高到低的顺序排序。4.根据权利要求1或2所述的方法,其特征在于,所述从所述搜索文件集合中确定与所述搜索关键词相似度最高的前P个文件之前,还包括:将所述K个文件按照与所述搜索关键词的相似度从高到低的顺序排序;相应的,所述从所述搜索文件集合中确定与所述搜索关键词相似度最高的前P个文件,包括:从所述搜索文件集合中确定排序最前面的P个文件。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述搜索关键词搜索得到搜索文件集合,包括:将所述搜索关键词输入到第一相似度计算模型中,确定用户所存储的全部文件与所述搜索关键词的相似度;其中,所述第一相似度计算模型是使用用户搜索日志形成的训练样本训练得到的;从所述用户所存储的全部文件中确定与所述搜索关键词的相似度超过预设阈值的文件,形成搜索文件集合。6.根据权利要求5所述的方法,其特征在于,所述第一相似度计算模型采用下述训练过程得到:获取所述用户的搜索日志,所述搜索日志中包含多条搜索样本,每条搜索样本包括搜索关键词、所述搜索关键词对应的搜索文件以及用户选中的目标文件;针对每条搜索样本,获取搜索文件的第一语义特征值,所述第一语义特征值为所述搜索关键词在所述搜索文件的标题和内容上的特征值;采用所获取的第一语义特征值和全部搜索样本训练信息检索排序算法模型,得到所述第一相似度计算模型。2CN114996215A权利要求书2/3页7.根据权利要求1或2所述的方法,其特征在于,所述从所述用户的文件活动日志中确定P个历史活动文件,包括:将所述用户的文件活动日志中的词条输入到第二相似度计算模型中,确定所述用户的文件活动日志中文件与文件之间的相似度,所述词条包括用户自定义词条和网络流行词条,所述网络流行词条为网络热度超过预设阈值的网络词条,所述第二相似度计算模型是使用所述用户的文件活动日志形成的训练样本训练得到的;从所述用户的文件活动日志中确定与所述前P个文件中各文件的相似度最高的P个历史活动文件。8.根据权利要求7所述的方法,其特征在于,所述第二相似度计算模型采用下述训练过程得到:获取预设时段内所述用户的文件活动日志,所述文件活动日志包含多条日志样本,每条日志样本包括用户在所述预设时段内所访问的