预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761986A(43)申请公布日2021.12.07(21)申请号202010506291.7(22)申请日2020.06.05(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人曹雅婷胡琨(74)专利代理机构北京太合九思知识产权代理有限公司11610代理人张爱刘戈(51)Int.Cl.G06K9/00(2006.01)H04N21/2187(2011.01)H04N21/234(2011.01)H04N21/233(2011.01)H04N21/2343(2011.01)权利要求书3页说明书19页附图6页(54)发明名称文本获取、直播方法、设备及存储介质(57)摘要本申请实施例提供一种文本获取、直播方法、设备及存储介质。在本申请的一些实施例中,首先,文本获取设备将包含目标用户问答内容的视频流转换为图像流和音频流;接着,分别识别目标用户在图像流和音频流中对应的说话区间;接着,将识别到的目标用户在图像流和音频流中对应的说话区间进行融合确定目标说话区间,从音频流中截取目标说话区间对应的目标音频片段,通过图像流和音频流进行结合,提高目标用户说话内容对应的音频片段的识别率;最后,将包含目标用户说话内容的目标音频片段进行文本转换,得到目标用户说话的文本内容,从视频流中提取文本内容的准确率较高。CN113761986ACN113761986A权利要求书1/3页1.一种文本获取方法,其特征在于,包括:将包含目标用户问答内容的视频流转换为图像流和音频流;分别识别目标用户在图像流和音频流中对应的说话区间;根据识别到的目标用户在图像流和音频流中对应的说话区间,从所述音频流中截取包含目标用户说话内容的目标音频片段;将所述包含目标用户说话内容的目标音频片段进行文本转换,得到目标用户说话的文本内容。2.根据权利要求1所述的方法,其特征在于,在得到目标用户说话的文本内容之后,所述方法还包括:根据预先学习到的对文本内容进行输入问答标记模型的方式,对所述文本内容进行问答标记,得到问答文本。3.根据权利要求1所述的方法,其特征在于,分别识别目标用户在图像流和音频流中对应的说话区间,包括:根据目标用户的图像特征,识别出目标用户在图像流中的说话区间;根据目标用户的声纹特征,识别出目标用户在音频流中的说话区间。4.根据权利要求3所述的方法,其特征在于,根据目标用户的图像特征,识别出目标用户在图像流中的说话区间,包括:将图像流和包含目标用户的图像特征输入视频识别模型;在所述视频识别模型内部,根据目标用户的图像特征,提取包含所述目标用户的图像特征的图像流片段;利用卷积神经网络算法,从所述包含所述目标用户的图像特征的图像流片段中识别出目标用户在图像流中的说话区间。5.根据权利要求4所述的方法,其特征在于,在将图像流和包含目标用户的图像特征输入视频识别模型之前,所述方法还包括:利用图像流样本、包含用户的图像特征样本和用户在图像流中的说话区间样本进行模型训练,得到视频识别模型。6.根据权利要求5所述的方法,其特征在于,利用图像流样本、包含用户的图像特征样本和用户在图像流中的说话区间样本进行模型训练,得到视频识别模型,包括:从所述图像流样本中提取包含用户的图像特征样本的图像流片段;将所述包含用户的图像特征样本的图像流片段和用户在图像流中的说话区间样本输入卷积神经网络算法,建立包含用户的图像特征样本的图像流片段和用户在图像流中的说话区间之间的映射关系,得到视频识别模型。7.根据权利要求3所述的方法,其特征在于,根据目标用户的声纹特征,识别出目标用户在音频流中的说话区间,包括:将所述音频流和目标用户的声纹特征输入音频识别模型;在所述音频识别模型内部,提取包含所述目标用户的声纹特征的音频片段;从包含所述目标用户的声纹特征的音频片段中识别出目标用户在音频流中的说话区间。8.根据权利要求7所述的方法,其特征在于,在将所述音频流和目标用户的声纹特征输2CN113761986A权利要求书2/3页入音频识别模型之前,所述方法还包括:利用音频流样本和包含用户的声纹特征样本、用户在音频流中的说话区间样本进行模型训练,得到音频识别模型。9.根据权利要求1所述的方法,其特征在于,根据识别到的目标用户在图像流和音频流中对应的说话区间,从所述音频流中截取包含目标用户说话内容的目标音频片段,包括:将所述目标用户在图像流和音频流中对应的说话区间输入音频片段确定模型,得到包含目标用户说话内容的目标音频片段。10.根据权利要求9所述的方法,其特征在于,在将所述目标用户在图像流和音频流中对应的说话区间输入音频片段确定模型之前,所述方法还包括:利用用户在图像流和音频流中对应的说话区间以