文本获取、直播方法、设备及存储介质-豆柴文库

文本获取、直播方法、设备及存储介质.pdf

2023-07-25

10金币

940KB

29页

小凌****甜蜜

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共29页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761986A(43)申请公布日2021.12.07(21)申请号202010506291.7(22)申请日2020.06.05(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人曹雅婷胡琨(74)专利代理机构北京太合九思知识产权代理有限公司11610代理人张爱刘戈(51)Int.Cl.G06K9/00(2006.01)H04N21/2187(2011.01)H04N21/234(2011.01)H04N21/233(2011.01)H04N21/2343(2011.01)权利要求书3页说明书19页附图6页(54)发明名称文本获取、直播方法、设备及存储介质(57)摘要本申请实施例提供一种文本获取、直播方法、设备及存储介质。在本申请的一些实施例中，首先，文本获取设备将包含目标用户问答内容的视频流转换为图像流和音频流；接着，分别识别目标用户在图像流和音频流中对应的说话区间；接着，将识别到的目标用户在图像流和音频流中对应的说话区间进行融合确定目标说话区间，从音频流中截取目标说话区间对应的目标音频片段，通过图像流和音频流进行结合，提高目标用户说话内容对应的音频片段的识别率；最后，将包含目标用户说话内容的目标音频片段进行文本转换，得到目标用户说话的文本内容，从视频流中提取文本内容的准确率较高。CN113761986ACN113761986A权利要求书1/3页1.一种文本获取方法，其特征在于，包括：将包含目标用户问答内容的视频流转换为图像流和音频流；分别识别目标用户在图像流和音频流中对应的说话区间；根据识别到的目标用户在图像流和音频流中对应的说话区间，从所述音频流中截取包含目标用户说话内容的目标音频片段；将所述包含目标用户说话内容的目标音频片段进行文本转换，得到目标用户说话的文本内容。2.根据权利要求1所述的方法，其特征在于，在得到目标用户说话的文本内容之后，所述方法还包括：根据预先学习到的对文本内容进行输入问答标记模型的方式，对所述文本内容进行问答标记，得到问答文本。3.根据权利要求1所述的方法，其特征在于，分别识别目标用户在图像流和音频流中对应的说话区间，包括：根据目标用户的图像特征，识别出目标用户在图像流中的说话区间；根据目标用户的声纹特征，识别出目标用户在音频流中的说话区间。4.根据权利要求3所述的方法，其特征在于，根据目标用户的图像特征，识别出目标用户在图像流中的说话区间，包括：将图像流和包含目标用户的图像特征输入视频识别模型；在所述视频识别模型内部，根据目标用户的图像特征，提取包含所述目标用户的图像特征的图像流片段；利用卷积神经网络算法，从所述包含所述目标用户的图像特征的图像流片段中识别出目标用户在图像流中的说话区间。5.根据权利要求4所述的方法，其特征在于，在将图像流和包含目标用户的图像特征输入视频识别模型之前，所述方法还包括：利用图像流样本、包含用户的图像特征样本和用户在图像流中的说话区间样本进行模型训练，得到视频识别模型。6.根据权利要求5所述的方法，其特征在于，利用图像流样本、包含用户的图像特征样本和用户在图像流中的说话区间样本进行模型训练，得到视频识别模型，包括：从所述图像流样本中提取包含用户的图像特征样本的图像流片段；将所述包含用户的图像特征样本的图像流片段和用户在图像流中的说话区间样本输入卷积神经网络算法，建立包含用户的图像特征样本的图像流片段和用户在图像流中的说话区间之间的映射关系，得到视频识别模型。7.根据权利要求3所述的方法，其特征在于，根据目标用户的声纹特征，识别出目标用户在音频流中的说话区间，包括：将所述音频流和目标用户的声纹特征输入音频识别模型；在所述音频识别模型内部，提取包含所述目标用户的声纹特征的音频片段；从包含所述目标用户的声纹特征的音频片段中识别出目标用户在音频流中的说话区间。8.根据权利要求7所述的方法，其特征在于，在将所述音频流和目标用户的声纹特征输2CN113761986A权利要求书2/3页入音频识别模型之前，所述方法还包括：利用音频流样本和包含用户的声纹特征样本、用户在音频流中的说话区间样本进行模型训练，得到音频识别模型。9.根据权利要求1所述的方法，其特征在于，根据识别到的目标用户在图像流和音频流中对应的说话区间，从所述音频流中截取包含目标用户说话内容的目标音频片段，包括：将所述目标用户在图像流和音频流中对应的说话区间输入音频片段确定模型，得到包含目标用户说话内容的目标音频片段。10.根据权利要求9所述的方法，其特征在于，在将所述目标用户在图像流和音频流中对应的说话区间输入音频片段确定模型之前，所述方法还包括：利用用户在图像流和音频流中对应的说话区间以

相关资料

文本获取、直播方法、设备及存储介质.pdf

本申请实施例提供一种文本获取、直播方法、设备及存储介质。在本申请的一些实施例中，首先，文本获取设备将包含目标用户问答内容的视频流转换为图像流和音频流；接着，分别识别目标用户在图像流和音频流中对应的说话区间；接着，将识别到的目标用户在图像流和音频流中对应的说话区间进行融合确定目标说话区间，从音频流中截取目标说话区间对应的目标音频片段，通过图像流和音频流进行结合，提高目标用户说话内容对应的音频片段的识别率；最后，将包含目标用户说话内容的目标音频片段进行文本转换，得到目标用户说话的文本内容，从视频流中提取文本内

2023-07-25

940KB

直播间中数据的获取方法、装置、设备和存储介质.pdf

本发明实施例公开了一种直播间中数据的获取方法、装置、设备和存储介质。该方法包括：获取待获取的虚拟物品数据对应的初始单个数据对象和初始批量数据对象；若初始单个数据对象不为空对象，则以初始单个数据对象为输入参数，调用数据获取对象中的单个数据获取函数，生成包含待获取的单个虚拟物品数据的目标单个数据对象；若初始批量数据对象不为空对象，则以初始批量数据对象为输入参数，调用数据获取对象中的批量数据获取函数，生成包含待获取的批量虚拟礼物数据的目标批量数据对象。通过上述技术方案，实现了直播间中虚拟物品数据的获取，提高了数

2023-12-04

872KB

基于扫描设备的文本获取方法、装置、设备以及存储介质.pdf

本公开提供了一种基于扫描设备的文本获取方法、装置、设备以及存储介质，本公开涉及人工智能技术领域，具体涉及自然语言处理和计算机视觉技术领域，可应用于文本的收录和翻译等场景。具体实现方案为：响应于扫描操作以获取扫描文本；确定扫描操作的操作类型，其中，操作类型包括扫描范围小于预设范围的第一类型扫描操作、以及扫描范围不小于预设范围的第二类型扫描操作；当扫描操作为第一类型扫描操作时，对扫描文本进行补全以得到目标文本。用户可以利用扫描设备以第一类型扫描操作来获取到目标文本，使得扫描操作更加简单，能够显著地缩短用户的操

2023-07-25

677KB

直播视频的获取方法、装置、设备及介质.pdf

本公开提供了直播视频的获取方法、装置、设备及介质,涉及人工智能领域,尤其涉及自然语言处理、云计算、大数据、计算机视觉、语音技术、深度学习等技术领域。具体实现方案为:响应于第一用户发起的观看请求,获取观看请求所指示的第一视频;其中,观看请求中的手语标识表征是否开启手语识别功能;第一视频的状态标识表征第一视频是否为连麦状态的合成视频;若确定手语标识表征开启手语识别功能、且状态标识表征第一视频为连麦状态的合成视频,则将第一视频中的语音信息转换为手语信息,得到并向第一用户推送具有手语信息的第一视频。通过上述方法,

2023-04-19

1.1MB

信息获取方法、装置、存储介质及设备.pdf

本申请实施例公开了一种信息获取方法、装置、存储介质及设备，本申请涉及人工智能技术。该方法包括：获取待识别图像，对待识别图像进行图像分割，得到待识别图像中的文本识别区域；对文本识别区域进行文字提取，得到文本识别区域内的文本内容；对文本内容进行指示性关键词提取，得到文本内容中的M个指示性关键词；获取M个指示性关键词分别对应的关键词特征信息，根据每个指示性关键词的关键词特征信息，对文本内容进行信息提取，得到每个指示性关键词对应的目标文本，输出每个指示性关键词以及每个指示性关键词对应的目标文本。通过本申请，可以对

2023-07-24

936KB