预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113887553A(43)申请公布日2022.01.04(21)申请号202110987664.1(22)申请日2021.08.26(71)申请人合肥工业大学地址230009安徽省合肥市包河区屯溪路193号(72)发明人李霄剑李玲丁帅欧阳波杨善林屈炎伟(74)专利代理机构北京久诚知识产权代理事务所(特殊普通合伙)11542代理人余罡(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书9页附图1页(54)发明名称手术交互行为识别方法、装置、存储介质和电子设备(57)摘要本发明提供了一种手术交互行为识别方法、装置、存储介质和电子设备,涉及手术交互行为识别技术领域。本发明提出一种能学习到手术器械间、交互行为间的关系以及内窥镜图像与手术器械间和内窥镜图像与交互行为间的关系的深度学习模型。该模型能够预测出当前细粒度手术交互行为,即使用何种手术器械对哪个目标进行何种操作。CN113887553ACN113887553A权利要求书1/2页1.一种手术交互行为识别方法,其特征在于,该方法包括:提取内窥镜图像的高维特征,并得到描述所述内窥镜图像的第一特征矩阵;基于对应微创手术的手术交互行为三元组的总数量的查询数量Query_num和所述第一特征矩阵,通过三元组关系编码器实现对三元组关系编码;基于三元组关系编码结果,通过器械‑动作‑目标解码器获取包含各个查询对应的所有器械、所有动作以及所有目标的预测概率的器械‑动作‑目标解码结果;基于所述器械‑动作‑目标解码结果,通过权重注意力模块得到带有权重的最终查询矩阵;基于所述带有权重的最终查询矩阵,通过有效三元组解码器得到最终的手术交互行为三元组的预测结果。2.如权利要求1所述的一种手术交互行为识别方法,其特征在于,所述基于对应微创手术的手术交互行为三元组的总数量的查询数量Query_num和所述第一特征矩阵,通过三元组关系编码器实现对三元组关系编码,包括:通过查询嵌入初始化Query_num个与所述第一特征矩阵维度相同的第二特征矩阵;所述第二特征矩阵用于表征每类手术交互行为三元组的特征;通过多头自注意力模块基于每个第二特征矩阵,得到第三特征矩阵,所述第三特征矩阵用于表征融合了各手术交互行为间关系的每类手术交互行为三元组的特征;通过多头交叉注意模块计算所述第一特征矩阵与每个第三特征矩阵之间的相互关系,来识别所查询的Query_num个手术交互行为三元组与内窥镜图像的关系,得到既包含了所查询的各手术交互行为三元组间的关系同时也包含了内窥镜图像与各手术交互行为三元组的关系的第四特征矩阵;将所述第四特征矩阵通过多层感知机最终输出第五特征矩阵。3.如权利要求2所述的一种手术交互行为识别方法,其特征在于,所述基于三元组关系编码结果,通过器械‑动作‑目标解码器获取包含各个查询对应的所有器械、所有动作以及所有目标的预测概率的器械‑动作‑目标解码结果,包括:基于所述第五特征矩阵,通过器械‑动作‑目标解码器的器械检测模块、动作检测模块和目标检测模块得到第一器械矩阵、第一动作矩阵、第一目标矩阵;且所述第一目标矩阵中的第i行第j列元素代表第i个查询中第j个目标的概率;所述第一动作矩阵中的第i行第j列元素代表第i个查询中第j个动作的概率;所述第一目标矩阵中的第i行第j列元素代表第i个查询中第j个目标的概率。4.如权利要求3所述的一种手术交互行为识别方法,其特征在于,所述基于所述器械‑动作‑目标解码结果,通过权重注意力模块得到带有权重的最终查询矩阵,包括:基于第一器械矩阵、第一动作矩阵、第一目标矩阵,通过查询通道权重注意力,得到第二器械矩阵,第二动作矩阵和第二目标矩阵;基于第二器械矩阵、第二动作矩阵、第二目标矩阵,通过查询元素权重注意力,得到第三器械矩阵,第三动作矩阵和第三目标矩阵。5.如权利要求4所述的一种手术交互行为识别方法,其特征在于,所述基于所述带有权重的最终查询矩阵,通过有效三元组解码器得到最终的手术交互行为三元组的预测结果,包括:2CN113887553A权利要求书2/2页将第三器械矩阵、第三动作矩阵和第三目标矩阵进行拼接,得到(Query_num,ni+nv+nt)维度的矩阵;对该矩阵按列取平均,得到1×(ni+nv+nt)的一维向量,然后将该向量输入多层感知机,得到每个手术交互行为三元组的预测概率,并将大于阈值的作为最终手术交互行为三元组的预测结果。6.如权利要求3所述的一种手术交互行为识别方法,其特征在于,所述器械‑动作‑目标解码结果还包括:器械、目标在画面中的定位;以及每个查询中器械的最大值、动作的最大值和目标的最大值对应的器械、动作和目标;