基于多媒体对象的语音交互方法、系统、车辆和程序载体-豆柴文库

基于多媒体对象的语音交互方法、系统、车辆和程序载体.pdf

2023-11-01

10金币

484KB

9页

悠柔****找我

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112259103A(43)申请公布日2021.01.22(21)申请号202011131092.9(22)申请日2020.10.21(71)申请人戴姆勒股份公司地址德国斯图加特(72)发明人戚耀文(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人慕弦(51)Int.Cl.G10L15/30(2013.01)G10L17/04(2013.01)G10L17/22(2013.01)G06K9/20(2006.01)G06K9/62(2006.01)权利要求书1页说明书5页附图2页(54)发明名称基于多媒体对象的语音交互方法、系统、车辆和程序载体(57)摘要本发明涉及数字信息处理领域。本发明提供一种基于多媒体对象、例如名片的语音交互的方法，所述方法包括以下步骤：获取多媒体对象；提取多媒体对象包含的信息；将所提取的信息关联到至少一个语音技能模型；以及根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。本发明还涉及一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。本发明旨在将从多媒体对象提取的信息匹配到适合的语音技能模型并利用所述信息对其进行训练，从而用户能够通过语音交互直接定向到语音技能模型并调用相关语音服务，由此实现了一种更高效、快捷的信息处理方式。CN112259103ACN112259103A权利要求书1/1页1.一种基于多媒体对象的语音交互的方法，所述方法包括以下步骤：S1)获取多媒体对象；S2)提取多媒体对象包含的信息；S3)将所提取的信息关联到至少一个语音技能模型；以及S4)根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。2.根据权利要求2所述的方法，其中，所述步骤S3包括：根据所提取的信息中的表征多媒体对象的主体身份的信息生成标识符；为所提取的信息中的附加信息分配所述标识符，使得所述附加信息及其关联的语音技能模型链接到所述主体身份。3.根据权利要求1或2所述的方法，其中，所述步骤S3包括：将所提取的信息中的人员姓名、职业、物理地址、电子邮件地址、手机号码、固话号码关联到通讯录模型和/或日历模型；以及将所提取的信息中的物理地址关联到天气模型和/或导航模型。4.根据权利要求1至3中任一项所述的方法，其中，所述步骤S3还包括：将多媒体对象的所提取的信息存储到语音技能模型的语料库中并作为训练数据来训练相应的语音技能模型。5.根据权利要求1至4中任一项所述的方法，其中，所述步骤S2包括：借助光学字符识别技术识别多媒体对象中的文本字段；对所述文本字段进行预处理；对所述文本字段执行特征选择；以及按照预定义的标准对所选择的特征进行分类。6.根据权利要求1至5中任一项所述的方法，其中，在步骤S4之前还执行以下步骤：将所关联的语音技能模型存储在云端并且与用户的身份信息进行绑定。7.根据权利要求1至6中任一项所述的方法，其中，所述步骤S4包括：检测用户的语音指令中的第一字段信息和第二字段信息，所述第一字段信息表征用户意图，所述第二字段信息表征多媒体对象的主体身份；基于第一字段信息定向到至少一个语音技能模型，基于第二字段信息定向到所述语音技能模型的语料库中的条目，所述条目链接到所述主体身份；以及借助所述语音技能模型基于所述条目来提供语音服务。8.一种基于多媒体对象的语音交互的系统(100)，所述系统用于执行根据权利要求1至7中任一项所述的方法，所述系统(100)包括：获取模块(110)，其配置成能够获取多媒体对象；提取模块(120)，其配置成能够提取多媒体对象包含的信息；处理模块(130)，其配置成将所提取的信息关联到至少一个语音技能模型；以及输出模块(140)，其配置成能够根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。9.一种车辆，所述车辆具有根据权利要求8所述的系统(100)。10.一种机器可读程序载体，在其上存储有计算机程序，所述计算机程序用于当其在计算机上运行时能够实施根据权利要求1至7中任一项所述的方法。2CN112259103A说明书1/5页基于多媒体对象的语音交互方法、系统、车辆和程序载体技术领域[0001]本发明涉及一种基于多媒体对象的语音交互的方法、一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。背景技术[0002]随着个人智能化设备的普及与发展，将纸质媒体对象的信息以电子方式进行存储和读取逐渐成为主流。但是，提取媒体对象的信息往往需要耗费大量人力和物力，如何自动化地完成这一过程并且良好地利用提取出的信息至关重要。[0003]为了解决这一问题，现有技术中提出了基于媒体消息的智能助理以及自动化名片识别方法，其中，尤其提出了可通过图像识别等手段录

相关资料

基于多媒体对象的语音交互方法、系统、车辆和程序载体.pdf

本发明涉及数字信息处理领域。本发明提供一种基于多媒体对象、例如名片的语音交互的方法，所述方法包括以下步骤：获取多媒体对象；提取多媒体对象包含的信息；将所提取的信息关联到至少一个语音技能模型；以及根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。本发明还涉及一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。本发明旨在将从多媒体对象提取的信息匹配到适合的语音技能模型并利用所述信息对其进行训练，从而用户能够通过语音交互直接定向到语音技能模型并调用相关语音服务，由此实现了一种更

2023-11-01

484KB

基于语音交互的账号注册的方法和系统.pdf

本说明书提供的基于语音交互的账号注册的方法和系统，可以通过多轮会话的方式引导申请人通过语音输入注册信息进行目标账号的注册，使注册过程无屏化。在目标账号注册过程中，所述系统可以基于申请人的面部图像或语音应答信息对申请人进行活体判断，并将申请人的面部图像、声纹特征以及语音应答信息与所述目标账号关联。

2023-05-25

631KB

语音交互方法、服务器和语音交互系统.pdf

本发明公开了一种语音交互方法、服务器和语音交互系统。语音交互方法用于服务器。语音交互方法包括：接收车机系统转发的按时间输入的多轮语音，多轮语音包括当前轮语音和在先轮语音；根据多轮语音，计算出当前轮语音的语境得分和自然语言理解得分；根据当前轮语音和当前轮语音的语境得分和自然语言理解得分，获取当前轮语音的回复及拒识结果；根据当前轮语音的回复及拒识结果，完成车机系统和用户的语音交互。上述语音交互方法中，能够控制车机系统以合适的处理方式来对用户语音进行处理，减少过拒等问题，提升用户体验。

2023-08-25

1.3MB

基于多媒体信息的交互方法、装置和系统.pdf

本发明公开了一种基于多媒体信息的交互方法、装置和系统，属于网络技术领域。所述方法包括：通过社交应用，向第一终端发起网络通话请求，获取所述第一终端当前的通话状态；当根据所述通话状态，确定所述第一终端当前处于预设繁忙状态时，通过所述社交应用，获取多媒体信息；通过所述社交应用，向社交应用服务器发送所述多媒体信息，使得所述社交应用服务器向所述第一终端发送留言提示消息，所述留言提示消息包括所述多媒体信息。本发明能够保证在该第一终端的第一用户处于繁忙状态时，第二终端的用户也能够异步地向该第一用户传递多媒体信息，为用户

2023-11-22

1.8MB

基于语音的智能视觉交互方法及系统.pdf

本发明公开了基于语音的智能视觉交互方法及系统。本发明中，系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统

2023-07-21

534KB