预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114201961A(43)申请公布日2022.03.18(21)申请号202111535088.3(22)申请日2021.12.15(71)申请人中山大学地址510275广东省广州市新港西路135号(72)发明人周浩杰陈湘萍陈亮郑子彬(74)专利代理机构北京集佳知识产权代理有限公司11227代理人李增苗(51)Int.Cl.G06F40/253(2020.01)G06F16/35(2019.01)权利要求书2页说明书9页附图5页(54)发明名称一种注释预测方法、装置、设备及可读存储介质(57)摘要本申请公开了一种注释预测方法、装置、设备及可读存储介质。可获取并过滤项目提交数据;从项目提交数据中的代码修改文件提取并序列化所述代码修改文件的AST信息,继而,将代码修改文件及AST信息的序列化信息输入预设的注释预测模型,得到代码修改的提交注释。本申请除了将原有的代码修改的信息作为分析的样本之外,还将修改的代码的AST信息作为分析的样本,从而输出更准确的提交注释信息。以帮助开发人员更好地理解每次提交代码修改的具体的结构及语法信息,有助于提高开发人员的阅读效率及研发效率。CN114201961ACN114201961A权利要求书1/2页1.一种注释预测的方法,其特征在于,包括:获取项目提交数据;提取所述项目提交数据中的代码修改文件;从所述代码修改文件中,提取所述代码修改文件的抽象语法树AST信息,并将所述AST信息序列化,得到所述AST信息的序列化信息;将所述代码修改文件及所述AST信息的序列化信息输入预设的注释预测模型,得到代码修改的提交注释,其中,所述注释预测模型以训练代码修改文件及所述训练代码修改文件抽取的AST的序列化信息为训练样本,以所述训练代码修改文件中的代码修改的注释为样本标签训练得到。2.根据权利要求1所述注释预测方法,其特征在于,在所述提取所述项目提交数据中的代码修改文件之前,还包括:剔除所述项目提交数据中符合以下条件的数据:Merge、Rollback版本的项目提交数据;修改代码的提交注释不是以动宾结构开头的项目提交数据;修改代码的提交注释的词超过预设的阈值的项目提交数据。3.根据权利要求1所述注释预测方法,其特征在于,所述提取所述项目提交数据中的代码修改文件,包括:从所述项目提交数据中,提取每次提交的项目提交数据修改前后的代码之间的差异信息,形成代码修改文件。4.根据权利要求1所述注释预测方法,其特征在于,所述从所述代码修改文件中,提取所述代码修改文件的AST信息,并将所述AST信息序列化,得到所述AST信息的序列化信息,包括:剔除所述代码修改文件中不存在修改的函数,得到过滤后的代码修改文件;提取所述过滤后的代码修改文件的AST信息;基于所述AST信息,确定所述过滤后的代码修改文件中每行代码的语法节点;对所述过滤后的代码修改文件中每行代码的语法节点进行哈希计算,得到各行代码的各个语法节点的哈希值;将所述各行代码的各个语法节点的哈希值相加得到所述过滤后的代码修改文件中每行代码的哈希值;将所述过滤后代码修改文件中每行代码的哈希值依次排列,得到所述AST信息的序列化信息。5.一种注释预测装置,其特征在于,包括:项目提交数据获取单元,用于获取项目提交数据;代码修改文件提取单元,用于提取所述项目提交数据中的代码修改文件;AST信息提取单元,用于从所述代码修改文件提取所述代码修改文件的AST信息,并将所述AST信息序列化,得到所述AST信息的序列化信息;注释预测单元,用于将所述代码修改文件及所述AST信息的序列化信息输入预设的注释预测模型,得到代码修改的提交注释,其中,所述注释预测模型以训练代码修改文件及所述训练代码修改文件抽取的AST的序列化信息为训练样本,以所述训练代码修改文件中的2CN114201961A权利要求书2/2页代码修改的注释为样本标签训练得到。6.根据权利要求5所述注释预测装置,其特征在于,还包括:第一过滤单元,用于剔除所述项目提交数据中符合以下条件的数据:Merge、Rollback版本的项目提交数据;修改代码的提交注释不是以动宾结构开头的项目提交数据;修改代码的提交注释的词超过预设的阈值的项目提交数据。7.根据权利要求5所述注释预测装置,其特征在于,所述代码修改文件提取单元执行所述提取所述项目提交数据中的代码修改文件的步骤,包括:从所述项目提交数据中提取每次提交的项目提交数据修改前后的代码之间的差异信息,形成代码修改文件。8.根据权利要求5所述的注释预测装置,其特征在于,所述AST信息提取单元,包括:第二过滤单元,用于剔除所述代码修改文件中不存在修改的函数,得到过滤后的代码修改文件;提取单元,用于提取所述过滤后的代码修改文件的