预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111010586A(43)申请公布日2020.04.14(21)申请号201911319847.5G06F21/64(2013.01)(22)申请日2019.12.19(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人朱绍明(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人赵翠萍张颖玲(51)Int.Cl.H04N21/2187(2011.01)H04N21/234(2011.01)H04N21/233(2011.01)H04N21/2343(2011.01)H04N21/478(2011.01)权利要求书3页说明书17页附图5页(54)发明名称基于人工智能的直播方法、装置、设备及存储介质(57)摘要本发明提供了一种基于人工智能的直播方法、装置、设备及存储介质;方法包括:接收用于虚拟主播表演的给定文本,根据给定文本实时获取对应虚拟主播的音频数据和脸部特征,以形成至少一个媒体数据包;对媒体数据包中的脸部特征进行特效渲染处理,得到对应虚拟主播的图像帧集合,并结合音频数据形成对应媒体数据包的推流数据包;实时提取推流数据包中的图像帧集合与音频数据,并实时推送至客户端,以使客户端根据接收的图像帧集合实时呈现虚拟主播的图像帧,以及对应的音频数据,通过本发明,能够将文本数据自动实时合成为视频推送到客户端,从而有效提高直播的实时性、并降低直播劳动力成本。CN111010586ACN111010586A权利要求书1/3页1.一种基于人工智能的直播方法,其特征在于,所述方法包括:接收用于供虚拟主播表演的给定文本,根据所述给定文本实时获取对应所述虚拟主播的音频数据和脸部特征,以形成至少一个媒体数据包;实时对所述媒体数据包中的脸部特征进行特效渲染处理,得到对应所述虚拟主播的图像帧集合,并结合所述音频数据形成对应所述媒体数据包的推流数据包;实时提取所述推流数据包中的图像帧集合与音频数据,并推送至客户端,以使所述客户端根据接收的图像帧集合实时呈现所述虚拟主播的图像帧,以及对应的音频数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述给定文本实时获取对应所述虚拟主播的音频数据,包括:当接收到所述给定文本时,实时将所述给定文本转化为对应所述给定文本的词向量;对所述词向量进行编码处理以及解码处理,得到对应所述词向量的音频特征;对所述音频特征进行合成处理,得到对应所述虚拟主播的音频数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述给定文本实时获取对应所述虚拟主播的脸部特征,包括:根据对应所述给定文本的音频数据,预测所述虚拟主播的嘴部关键点,并对所述嘴部关键点进行归一化处理,以使所述嘴部关键点适应于标准面部模板;对经过归一化处理的嘴部关键点进行降维处理,得到对应所述虚拟主播的口型特征;对所述给定文本进行语义分析,得到所述给定文本所表征的语义;根据所述给定文本所表征的语义,确定与所述语义匹配的脸部表情特征,并结合所述口型特征以及所述脸部表情特征形成对应所述虚拟主播的脸部特征。4.根据权利要求3所述的方法,其特征在于,对所述嘴部关键点进行归一化处理之前,所述方法还包括:向区块链网络发送查询交易,其中,所述查询交易指示了用于查询所述区块链网络中账本的智能合约,以使所述区块链网络中的共识节点通过执行所述智能合约的方式来查询所述账本,得到所述账本中存储的所述标准面部模板;或者根据所述标准面部模板的标识,从标准面部模板数据库中查询所述标识对应的所述标准面部模板,并确定所述查询到的标准面部模板的哈希值;从区块链网络中查询所述标识对应的哈希值,当所查询到的哈希值与所述确定的哈希值一致时,确定所述查询到的标准面部模板未经篡改。5.根据权利要求1所述的方法,其特征在于,在形成至少一个媒体数据包之前,所述方法还包括:将所述给定文本发送至区块链网络,以使所述区块链网络中的共识节点通过执行智能合约的方式来对所述给定文本进行合规性检查;当接收到超过预设数目的共识节点返回的合规性确认时,确定所述给定文本通过所述合规性检查。6.根据权利要求1所述的方法,其特征在于,所述形成至少一个媒体数据包,包括:2CN111010586A权利要求书2/3页将所述给定文本划分为至少两个语段,并基于所述至少两个语段,将所述音频数据划分为与所述至少两个语段分别匹配的音频数据;基于所述至少两个语段,对所述脸部特征进行分类,得到分别匹配于所述至少两个语段的脸部特征;将对应于同一语段的脸部特征和音频数据组合,得到对应所述语段的媒体数据包。7.根据权利要求1所述的方法,其特征在于,所述实时对所述媒体数据包中的脸部特征进行特效渲染处理,得到对应所述