基于人工智能的直播方法、装置、设备及存储介质-豆柴文库

基于人工智能的直播方法、装置、设备及存储介质.pdf

2024-01-06

10金币

1.1MB

32页

一条****杉淑

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共32页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111010589A(43)申请公布日2020.04.14(21)申请号201911319864.9(22)申请日2019.12.19(71)申请人腾讯科技（深圳）有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人朱绍明(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人王姗姗张颖玲(51)Int.Cl.H04N21/233(2011.01)H04N21/234(2011.01)H04N21/235(2011.01)H04L29/06(2006.01)G06T3/00(2006.01)权利要求书3页说明书22页附图6页(54)发明名称基于人工智能的直播方法、装置、设备及存储介质(57)摘要本发明提供了一种基于人工智能的直播方法、装置、设备及存储介质；方法包括：接收用于供虚拟主播表演的给定文本，根据所述给定文本实时获取对应所述虚拟主播的音频数据和脸部特征数据，并分别形成至少一个音频数据包和至少一个脸部特征数据包；实时基于所述脸部特征数据包中的脸部特征数据进行特效渲染处理，得到携带有对应所述虚拟主播的图像帧集合的图像数据包；实时提取所述图像数据包中的图像帧集合和所述音频数据包中的音频数据；根据所述图像帧集合和所述音频数据进行所述虚拟主播的直播数据流推送，通过本发明，能够有效提高直播的实时性和流畅性。CN111010589ACN111010589A权利要求书1/3页1.一种基于人工智能的直播方法，其特征在于，所述方法包括：接收用于供虚拟主播表演的给定文本，根据所述给定文本实时获取对应所述虚拟主播的音频数据和脸部特征数据，并分别形成至少一个音频数据包和至少一个脸部特征数据包；实时基于所述脸部特征数据包中的脸部特征数据进行特效渲染处理，得到携带有对应所述虚拟主播的图像帧集合的图像数据包；实时提取所述图像数据包中的图像帧集合和所述音频数据包中的音频数据；根据所述图像帧集合和所述音频数据进行所述虚拟主播的直播数据流推送。2.根据权利要求1所述的方法，其特征在于，所述实时基于所述脸部特征数据包中的脸部特征数据进行特效渲染处理，得到携带有对应所述虚拟主播的图像帧集合的图像数据包，包括：当形成针对所述给定文本的至少一个脸部特征数据包中的第一个脸部特征数据包时，实时基于所述第一个脸部特征数据包中的脸部特征数据进行特效渲染处理，得到携带有对应所述虚拟主播的图像帧集合的第一个图像数据包；所述实时提取所述图像数据包中的图像帧集合和所述音频数据包中的音频数据，包括：当形成针对所述给定文本的至少一个音频数据包中的第一个音频数据包时，实时提取所述第一个音频数据包中的音频数据，以进行音频数据的推送；当形成携带有对应所述虚拟主播的图像帧集合的第一个图像数据包时，实时提取所述第一个图像数据包中的图像帧集合，以进行图像帧集合的推送。3.根据权利要求2所述的方法，其特征在于，当从所述给定文本获取到所述第一个图像数据包所耗费的时间大于从给定文本获取到所述第一个音频数据包所耗费的时间时，所述根据所述图像帧集合和所述音频数据进行所述虚拟主播的直播数据流推送，包括：当提取到所述第一个音频数据包中的音频数据时，将所提取到的音频数据实时推送到直播客户端，并将后续提取到的音频数据包中的音频数据，实时推送至所述直播客户端，直至提取到所述第一个图像数据包中的图像帧集合，并将所提取到的图像帧集合实时推送至所述直播客户端。4.根据权利要求2所述的方法，其特征在于，当从所述给定文本获取到所述第一个图像数据包所耗费的时间小于从给定文本获取到所述第一个音频数据包所耗费的时间时，所述根据所述图像帧集合和所述音频数据进行所述虚拟主播的直播数据流推送，包括：当提取到所述第一个图像数据包中的图像帧集合时，将所提取到的图像帧集合时推送到直播客户端，并将后续提取到的图像数据包中的图像帧集合，实时推送至所述直播客户端，直至提取到所述第一个音频数据包中的音频数据，并将所提取到的音频数据实时推送至所述直播客户端。5.根据权利要求1所述的方法，其特征在于，所述根据所述给定文本实时获取对应所述2CN111010589A权利要求书2/3页虚拟主播的音频数据，包括：当接收到所述给定文本时，将所述给定文本划分为至少两个语段，并实时将所述语段转化为对应所述语段的词向量；对所述词向量进行编码处理以及解码处理，得到对应所述词向量的音频特征；对所述音频特征进行合成处理，得到分别对应所述虚拟主播的各个语段的音频数据。6.根据权利要求5所述的方法，其特征在于，所述根据所述给定文本实时获取对应所述虚拟主播的脸部特征数据，包括：预测所述虚拟主播的对应各个语段的嘴部关键点，并对所述嘴部关键点进行归一化处理，以使所述嘴

相关资料

基于人工智能的直播方法、装置、设备及存储介质.pdf

本发明提供了一种基于人工智能的直播方法、装置、设备及存储介质；方法包括：接收用于供虚拟主播表演的给定文本；对所述给定文本对应的脸部特征进行特效渲染处理，得到包括所述脸部特征的脸部图像；对所述脸部图像和背景图像进行合成处理，得到对应所述虚拟主播的图像帧；基于所述虚拟主播的图像帧和对应所述给定文本的音频数据，合成对应所述给定文本的推流数据包；向客户端发送所述推流数据包，通过本发明，能够将文本数据自动实时合成为视频推送到客户端，从而有效提高直播的实时性、并降低直播劳动力成本。

2024-01-06

1.1MB

基于人工智能的直播方法、装置、设备及存储介质.pdf

本发明提供了一种基于人工智能的直播方法、装置、设备及存储介质；方法包括：接收用于虚拟主播表演的给定文本，根据给定文本实时获取对应虚拟主播的音频数据和脸部特征，以形成至少一个媒体数据包；对媒体数据包中的脸部特征进行特效渲染处理，得到对应虚拟主播的图像帧集合，并结合音频数据形成对应媒体数据包的推流数据包；实时提取推流数据包中的图像帧集合与音频数据，并实时推送至客户端，以使客户端根据接收的图像帧集合实时呈现虚拟主播的图像帧，以及对应的音频数据，通过本发明，能够将文本数据自动实时合成为视频推送到客户端，从而有效提

2024-01-06

1KB

基于人工智能的直播方法、装置、设备及存储介质.pdf

本发明提供了一种基于人工智能的直播方法、装置、设备及存储介质；方法包括：接收用于供虚拟主播表演的给定文本，根据所述给定文本实时获取对应所述虚拟主播的音频数据和脸部特征数据，并分别形成至少一个音频数据包和至少一个脸部特征数据包；实时基于所述脸部特征数据包中的脸部特征数据进行特效渲染处理，得到携带有对应所述虚拟主播的图像帧集合的图像数据包；实时提取所述图像数据包中的图像帧集合和所述音频数据包中的音频数据；根据所述图像帧集合和所述音频数据进行所述虚拟主播的直播数据流推送，通过本发明，能够有效提高直播的实时性和流

2024-01-06

1.1MB

基于人工智能的设备监测方法、装置、设备及存储介质.pdf

本发明公开一种基于人工智能的设备监测方法、装置、设备及存储介质。本发明通过获取待监测用电设备的设备图像信息，并采集待监测用电设备的运行数据，然后根据设备图像信息对运行数据进行筛选，获得目标运行数据，再根据目标运行数据对待监测用电设备进行异常监测。本发明通过获取待监测用电设备的设备图像信息，并采集待监测用电设备的运行数据，并根据设备图像信息对运行数据进行筛选，相较于现有的直接通过采集的运行数据判断用电设备是否异常，本发明上述方式能够有效地对待监测用电设备的运行数据进行筛选，再根据目标运行数据对待监测用电设备

2023-07-21

580KB

基于虚拟主播的直播方法、装置、设备及存储介质.pdf

本申请实施例提供一种基于虚拟主播的直播方法、装置、设备及存储介质。该方法包括：在直播过程中，通过直播客户端获取观众的互动信息，其中，互动信息包括交互文字和/或交互行为；根据互动信息以及预先获取的知识数据库，确定虚拟主播对互动信息的反馈信息，其中，反馈信息包括对交互文字和/或交互行为的回应内容和/或回应方式，知识数据库包括直播商品对应的知识库，话术库以及交互动作库中的至少一个；根据反馈信息，控制虚拟主播通过直播客户端对观众的互动进行响应。本申请实施例的虚拟主播能够及时对用户提出的问题做到实时应答，及时的给予

2023-06-14

953KB