一种音频图像采集设备及说话人定位及语音分离方法.pdf
美丽****ka
亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种音频图像采集设备及说话人定位及语音分离方法.pdf
本发明公开了录音录像产品领域的一种音频图像采集设备及说话人定位及语音分离方法,包括双摄像头、还包括4麦克风阵列的音频及图像采集设备;该方法包括以下步骤:采集设备将数据采集到后,通过GCC方法对多声源进行初步定向,再使用Viola‑Jones人脸检测算法对说话人进行检测判别,在双目视觉基础上得到说话人相对采集设备的方向以及距离信息;并使用子带功率谱熵特征来实现语音端点检测,用于提高音频定向方法的性能;通过GSC方法增强目标说话人方向的语音信号,拟制其他方向上的语音信号,再使用维纳滤波器进一步去除残留噪声,优
一种说话人音频分离方法、终端设备及存储介质.pdf
本发明涉及一种说话人音频分离方法、终端设备及存储介质,该方法中包括:S1:将包含多个说话人语音的音频按预设时长切分为多个音频片段;S2:提取各音频片段中的声纹向量;S3:将所有音频片段的声纹向量拼接为一个声纹特征矩阵;S4:根据声纹特征矩阵,计算音频片段的相似度矩阵;S5:根据相似度矩阵,对各音频片段进行聚类;S6:根据聚类结果,设定每个类别对应一个说话人,将每个类别对应的所有音频片段进行拼接,完成对不同说话人音频的分离。本发明可以在未知说话人人数的情况下,实现说话人音频的分离,具有较高的准确性,能够应用
基于语音处理的说话人分离方法、装置、设备及存储介质.pdf
本申请涉及一种基于语音处理的说话人分离方法、装置、设备及存储介质。所述方法包括:根据待处理语音的说话人变化点标记及预设的时间尺度对待处理语音进行分割,得到至少一个语音片段集,生成每个语音片段集的语音特征,基于预先构建的模型对每个语音片段集的语音特征执行特征提取和特征融合操作,得到每个语音片段集的目标特征矩阵,计算每个目标特征矩阵的相似度矩阵,基于谱聚类算法对每个相似度特征矩阵进行聚类操作得到每个语音片段集的聚类结果,对每个语音片段集的聚类结果执行投票操作,生成待处理语音的目标结果。本申请可以准确将待处理语
图像采集设备及图像采集方法.pdf
本申请提供一种图像采集设备及图像采集方法,图像采集设备包括红外泛光源、红外散斑光源、至少一个图像采集模组以及控制模组,其中,每个图像采集模组中至少包括一个红外相机,被配置为在拍摄时采集红外泛光得到红外泛光图像,或采集红外散斑光得到红外散斑图像,控制模组工作时被配置为获取预设的拍摄帧率,以及根据所述拍摄帧率,指示红外相机以分帧的方式分别拍摄红外泛光图像和红外散斑图像。图像采集设备可以利用同一个红外相机拍摄得到两种模态的红外图像,在不需要增加相机数量的情况下,使得图像采集设备采集到更多模态的图像,有利于提高图
一种轮图像采集组件、轮定位设备及车轮定位系统.pdf
本发明实施例涉及四轮定位技术领域,公开了一种轮图像采集组件,应用于车轮定位,包括:基座、马达组件以及相机模组:其中,所述基座的一端用于连接轮定位设备中的支架主体,所述基座的另一端用于连接所述相机模组;马达组件,安装于所述基座内,包括马达,所述马达用于驱动所述相机模组绕水平轴线转动,以调节所述相机模组的俯仰角;所述相机模组用于采集车轮的图像,以使所述车轮相对于所述车辆的位置被确定。通过上述方式,轮图像采集组件可以通过自身的马达驱动相机模组转动以调整相机模组的视野范围,更灵活,利于复杂环境中对轮定位。