本发明涉及增强现实技术领域,具体涉及一种基于语音识别和手势识别的多模态ar眼镜交互系统。
背景技术:
在多模态里面的视觉和听觉获取的信息的比例总和为94%,而且是当前流行的gui(图形用户界面)和vui(语音用户界面)使用的两个通道。所以在计算机和图形领域融合这两种最大的用户交互方式去进行信息的判断,可以提供给用户高效操作的系统,最终让用户可以舒服、高效、安全的来跟ar(增强现实)可穿戴设备实现互动。但是现有的ar眼镜无法进行语音与手势的识别,从而不能提高用户交互体验。
技术实现要素:
本发明为了克服以上技术的不足,提供了一种结合语音与手势操作,提高用户交互的基于语音识别和手势识别的多模态ar眼镜交互系统。
本发明克服其技术问题所采用的技术方案是:
一种基于语音识别和手势识别的多模态ar眼镜交互系统,包括如下步骤:
a)根据不同场景对用户语音和手势数据进行收集;
b)对收集的语音和手势数据进行预处理;
c)利用人工智能模型训练预处理后的数据;
d)根据训练的结果进行模型的优化后提高模型识别语音及手势的准确度;
e)将训练好的模型部署到ar眼镜的可穿戴设备系统中;
f)用户通激活交互方式后通过不同的语音加手势的组合对ar眼镜进行不同的操作和交互。
进一步的,步骤b)中对不同语音与手势的组合进行数据的标注和对齐。
进一步的,步骤f)中用户通过语音加手势的方式激活交互方式。
本发明的有益效果是:提供了基于语音识别和手势识别的多模态ar(增强现实)可穿戴设备交互系统有效的填补了这方面的空白。用户可以在使用单模态交互方式的同时,结合语音和手势操作去扩展操作方式,也可以根据用户的喜好设置不同的语音 手势的识别操作的方式,然后结合ar(增强现实)可穿戴设备去体验全新的多模态、高沉浸式的用户交互体验。
附图说明
图1为本发明的系统流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于语音识别和手势识别的多模态ar眼镜交互系统,包括如下步骤:
a)根据不同场景对用户语音和手势数据进行收集;
b)对收集的语音和手势数据进行预处理;
c)利用人工智能模型训练预处理后的数据;
d)根据训练的结果进行模型的优化后提高模型识别语音及手势的准确度;
e)将训练好的模型部署到ar眼镜的可穿戴设备系统中;
f)用户通激活交互方式后通过不同的语音加手势的组合对ar眼镜进行不同的操作和交互。
提供了基于语音识别和手势识别的多模态ar(增强现实)可穿戴设备交互系统有效的填补了这方面的空白。用户可以在使用单模态交互方式的同时,结合语音和手势操作去扩展操作方式,也可以根据用户的喜好设置不同的语音 手势的识别操作的方式,然后结合ar(增强现实)可穿戴设备去体验全新的多模态、高沉浸式的用户交互体验。
进一步的,步骤b)中对不同语音与手势的组合进行数据的标注和对齐。
进一步的,步骤f)中用户通过语音加手势的方式激活交互方式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种基于语音识别和手势识别的多模态ar眼镜交互系统,其特征在于,包括如下步骤:
a)根据不同场景对用户语音和手势数据进行收集;
b)对收集的语音和手势数据进行预处理;
c)利用人工智能模型训练预处理后的数据;
d)根据训练的结果进行模型的优化后提高模型识别语音及手势的准确度;
e)将训练好的模型部署到ar眼镜的可穿戴设备系统中;
f)用户通激活交互方式后通过不同的语音加手势的组合对ar眼镜进行不同的操作和交互。
2.根据权利要求1所述的基于语音识别和手势识别的多模态ar眼镜交互系统,其特征在于:步骤b)中对不同语音与手势的组合进行数据的标注和对齐。
3.根据权利要求1所述的基于语音识别和手势识别的多模态ar眼镜交互系统,其特征在于:步骤f)中用户通过语音加手势的方式激活交互方式。
技术总结