声学事件检测方法、装置、设备和存储介质-豆柴文库

声学事件检测方法、装置、设备和存储介质.pdf

2023-07-24

10金币

1.9MB

65页

Wi****m7

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共65页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114067828A(43)申请公布日2022.02.18(21)申请号202010768901.0(22)申请日2020.08.03(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人王宪亮王凯黄智颖索宏彬(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人赵娟(51)Int.Cl.G10L25/03(2013.01)G10L25/51(2013.01)G10L25/78(2013.01)G10L25/81(2013.01)权利要求书8页说明书41页附图15页(54)发明名称声学事件检测方法、装置、设备和存储介质(57)摘要本申请实施例提供了一种声学事件检测方法、装置、设备和存储介质，以提高声学事件检测的准确性。所述方法包括：获取待检测音频数据；从所述待检测音频数据中，提取目标音频片段的第一声学特征，所述目标音频片段包括多个音频帧；确定多个批次的第一声学特征对应声学事件的概率信息；其中，一个批次的第一声学特征包括具有预设时序关系的多个音频帧的第一声学特征；依据所述多个批次的第一声学特征对应声学事件的概率信息，确定所述目标音频片段中目标声学事件的概率信息；进而本申请实施例通过利用了待检测音频数据中所包含的多个音频帧的时序信息进行声学事件检测，提高声音事件检测的准确性。CN114067828ACN114067828A权利要求书1/8页1.一种声学事件检测方法，其特征在于，所述方法包括：获取待检测音频数据；从所述待检测音频数据中，提取目标音频片段的第一声学特征，所述目标音频片段包括多个音频帧；确定多个批次的第一声学特征对应声学事件的概率信息；其中，一个批次的第一声学特征包括具有预设时序关系的多个音频帧的第一声学特征；依据所述多个批次的第一声学特征对应声学事件的概率信息，确定所述目标音频片段中目标声学事件的概率信息。2.根据权利要求1所述的方法，其特征在于，所述从所述待检测音频数据中，提取目标音频片段的第一声学特征，包括：提取所述待检测音频数据的第一声学特征；采用长度为预设时长的窗按照设定滑动步长，在所述待检测音频数据的第一声学特征上滑动，截取得到目标音频片段的第一声学特征。3.根据权利要求1所述的方法，其特征在于，所述确定多个批次的第一声学特征对应声学事件的概率信息，包括：将所述第一声学特征输入至声学事件检测器，由所述声学事件检测器输出多个批次的第一声学特征对应声学事件的概率信息。4.根据权利要求3所述的方法，其特征在于，所述由所述声学事件检测器输出多个批次的第一声学特征对应声学事件的概率信息，包括：由所述声学事件检测器根据预设时序关系将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征，以及分别确定多个批次的第一声学特征对应声学事件的概率信息并输出。5.根据权利要求4所述的方法，其特征在于，所述根据预设时序关系将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征，包括：通过根据预设时序关系对所述多个音频帧的第一声学特征进行时间池化，将所述多个音频帧的第一声学特征划分为多个批次的第一声学特征。6.根据权利要求3所述的方法，其特征在于，所述将所述第一声学特征输入至声学事件检测器，包括：基于所述多个音频帧的第一声学特征，分别确定所述多个音频帧对应的第二声学特征；将所述第二声学特征输入至所述声学事件检测器。7.根据权利要求6所述的方法，其特征在于，所述基于所述多个音频帧的第一声学特征，分别确定所述多个音频帧对应的第二声学特征，包括：从所述多个音频帧的第一声学特征中，选取目标音频帧的第一声学特征；将目标音频帧的第一声学特征，与所述目标音频帧的前N个音频帧的第一声学特征和/或所述目标音频帧的后M个音频帧的第一声学特征拼接，得到所述目标音频帧对应的第三声学特征；基于所述目标音频帧对应的第三声学特征，确定所述目标视频帧对应的第二声学特征。2CN114067828A权利要求书2/8页8.根据权利要求7所述的方法，其特征在于，所述基于所述目标音频帧对应的第三声学特征，确定所述目标视频帧对应的第二声学特征，包括：将所述目标音频帧对应的第三声学特征，确定为所述目标视频帧对应的第二声学特征；和/或，对所述目标音频帧对应的第三声学特征进行差分处理，得到所述目标音频帧对应的多个第四声学特征；将所述目标音频帧对应的第三声学特征和多个第四声学特征，作为所述目标视频帧对应的第二声学特征；和/或，对所述目标音频帧对应的第三声学特征进行规整，得到所述目标音频帧对应的第五声学特征，将所述目标音频帧对应的第三声学特征和第五声学特征，作为所述目标视频帧对应的第二声学特征。9.根据权利要求1所述的方法，其特征在于，所述声学事

相关资料

声学事件检测方法、装置、设备和存储介质.pdf

本申请实施例提供了一种声学事件检测方法、装置、设备和存储介质，以提高声学事件检测的准确性。所述方法包括：获取待检测音频数据；从所述待检测音频数据中，提取目标音频片段的第一声学特征，所述目标音频片段包括多个音频帧；确定多个批次的第一声学特征对应声学事件的概率信息；其中，一个批次的第一声学特征包括具有预设时序关系的多个音频帧的第一声学特征；依据所述多个批次的第一声学特征对应声学事件的概率信息，确定所述目标音频片段中目标声学事件的概率信息；进而本申请实施例通过利用了待检测音频数据中所包含的多个音频帧的时序信息进

2023-07-24

1.9MB

图像处理方法、事件检测方法、装置、设备和存储介质.pdf

本公开提供了一种图像处理方法，涉及人工智能领域，尤其涉及图像处理领域，可以应用于智慧交通和智慧停车等场景。具体实现方案为：针对待处理图像进行目标检测操作，得到与待检测的对象对应的检测框；其中，上述检测框用于标记上述对象所处的区域；进行图像分割操作以获取子区域；其中，每个子区域与一个上述对象相对应；以及根据上述检测框的位置和上述子区域的位置，得到上述待处理图像的目标图像区域。本公开还提供了一种事件检测方法、装置、电子设备和存储介质。

2023-07-25

1.7MB

抛洒事件检测方法、装置、电子装置和存储介质.pdf

本申请涉及一种抛洒事件检测，其中，该抛洒事件检测方法包括：获取待检测图像；对所述待检测图像进行目标车辆轨迹检测，获取所述待检测图像中的目标车辆轨迹，所述目标车辆轨迹包括目标车辆在所述待检测图像中的移动轨迹以及对应时间信息；对所述待检测图像进行抛洒区域检测，获取所述待检测图像中的抛洒区域信息，所述抛洒区域信息包括抛洒区域的时间和位置；基于所述目标车辆轨迹以及所述抛洒区域信息，判断是否存在抛洒事件。通过本申请，解决了相关技术中仅通过单一维度判断抛洒事件存在容易产生误报，造成漏检和误检，导致抛洒事件的报警准确率

2023-07-25

868KB

事件检测方法、装置、电子设备及存储介质.pdf

本申请一种事件检测方法、装置、电子设备及存储介质。该城市管理事件检测方法，包括：获取预设场景区域的视频流数据，并根据所述视频流数据获取至少一个关键帧图像；检测所述至少一个关键帧图像内是否存在与所述事件对应的场景目标；获取所述场景目标在所述预设场景区域中的实际位置和/或停留时长；根据是否存在所述场景目标以及根据所述实际位置和/或停留时长判断与所述预设场景区域对应的所述事件是否发生。由于本申请通过场景目标的识别结合该场景目标在预设场景区域的时空信息来进行判断对应的事件是否发生，降低了误判率，可以提高检测的准确

2023-11-10

469KB

目标跟踪、事件检测方法及装置、电子设备和存储介质.pdf

本公开涉及一种目标跟踪、事件检测方法及装置、电子设备和存储介质，其中，所述目标跟踪方法包括：对视频流中的对象进行人脸识别，确定视频流中的待跟踪对象，以及确定待跟踪对象的待跟踪标识；确定目标库中是否包括待跟踪标识，其中，目标库中包括参考跟踪对象的跟踪标识以及参考跟踪对象的人脸特征信息；在目标库中不包括待跟踪标识的情况下，基于提取到的待跟踪对象的人脸特征信息与参考跟踪对象的人脸特征信息进行特征匹配；在待跟踪对象的人脸特征信息与参考跟踪对象的人脸特征信息匹配成功的情况下，对待跟踪对象与特征匹配成功的参考跟踪对象

2023-07-24

732KB