本发明涉及机器学习、深度学习、计算机视觉、人体动作识别、非接触式心理状态评估,特别涉及一种基于多模态融合技术的非接触式心理状态评估方法与系统。
背景技术:
1、基于多模态融合技术的心理健康快速筛查方法与系统,是一种快速筛查人的心理健康状态的技术,主要是通过收集人的面部表情,颈部肌肉振动和语音语调变化,对人的心理健康状态进行推断。在现代社会,该技术已经被广泛应用于智能设备开发、健康管理、青少年心理健康筛查,企业高管以及高危人群心理评估,驾驶舱内司机心理健康分析等方面。心理健康筛查,包括人对外界或自身刺激的心理健康程度的反应,也包括伴随这种心理反应的生理反应。分析心理学的创始人弗洛伊德曾提出人类心理生理和能量之间必然存在联系的构想,虽然这种联系的机制还没有最终定义。以前有专家已经尝试对个人分析情绪状态的动态进行定量分析,诺贝尔奖获得者康拉德·洛兰兹(konrad lorenz)是二十世纪侵略研究中最著名的专家之一,他认为动物身体活动与侵略水平之间存在着不可分割的联系。巴西心理学家e.mira ylópez提供了一种真正的动力学诊断技术,它被广泛应用于一般临床心理学和个性心理学,可惜的是,他的诊断技术是手动、费力和耗时的,也需要人工处理最终结果,从而限制了其应用范围。
2、全球科学家目前已经进行了大量的心理生理学研究,定义了对人的心理健康状态进行信息描述的参数和技术,包括脸部表情肌肉运动,眼睛和头部运动,声音韵律变化等。h.tamar的经典专著详细阐述了感官生理学的系统知识,特别强调了感官系统和神经生理学中的抑制问题。p.simon simonov的情绪信息论与伊万·巴甫洛夫对高等神经(心灵)活动研究的系统性方法是密不可分的,他对情绪心理学的分析和研究人类与动物反应的大脑机制,为情绪量化提供了常用的方法和公式。g.p.gladyshev教授和人类热力学专家l.thims的层次热力学通过基本物理定律-热力学第一和第二定律,研究并分析了平衡状态下的物体(包括人类)。潜在情绪智能分析系统振动影像技术,揭示了人类心理活动的物理现象,在不同程度上反映出该技术研究人员修正补充以上所列出的科学理论,创建远程非接触式扫描系统的工作模式,并且识别人的心理生理状态。
3、国内相关数据库及网络检索结果显示:孙洪央通过实验室诱发压力状态下的不同情绪和紧张程度,采集心率、皮肤电等多种生理参数,将粒子群优化算法分别与k近邻算法和支持向量机算法相结合,对情绪相关生理信号特征进行选择及情绪分类,为心理学中心理压力的评价和干预提供客观有效的依据和手段。中国专利202110060419.6公开了一种基于微表情与脑波分析算法的心理健康状况分析算法,通过对儿童的脑波信号以及微表情的数据收集,同时利用计算机技术与心理学的科学交叉,提升了对儿童心理焦虑状况的识别效果。中国专利202210768652.4公开了一种基于卷积神经网络表情识别的校园心理健康评估-反馈方法,收集学校学生的脸部数据,将脸部数据作为表情识别的分析数据,通过人脸表情识别卷积神经网络模型进行分析,当消极情绪比例增高时,可通过网络传输反馈给学校心理健康中心以及相关学生工作部门负责人员。中国专利202210533238.5公开了一种基于脸检测识的心理健康预判方法,通过高泛化的模型分析短时间内获取的面部表情行为数据,综合分析人物性格、心理情绪状态,最终做出多维度、可视化的心理画像后,进行有效评估进行心理健康预警。中国专利202010337887.9公开了一种心理状态测试评估方法,通过振动图像技术处理所收集的前庭神经反射的头部影像,记录受访者的心理反应,并运用算法进行相应的多元智能(mi)数据的分析,以此判断被测试者的心理状态。中国专利201810612829.5提出了一个基于神经网络mlp(多层感知模型)对基频、时长、音质和清晰度等声学参数进行深层次语音特征建模提取人在表达心理情感时所呈现的语音语调特征状态变化,中国专利201810613472.2提出一种基于时序的多模态情绪语义融合判断方法,通过rnn递归神经网络把每个单模态情绪理解的中间神经网络表示形式按时间序列组织起来,多模态rnn递归神经网络的每个时间点汇集了每个单模态的rnn递归神经网络的当前时间点上的神经网络输出,在综合了多模态后,每个时间点的输出即是最终该时间点的情绪判断结果。
4、综合分析国内所检文献,国内已见心理状态测试评估方法,通过振动图像技术处理所收集的前庭神经反射的头部影像,记录受访者心理反应,并运用算法进行相应的多元智能数据分析,以此判断被测试者心理状态的报道,已见基于微表情与脑波分析算法的心理健康状况分析算法,通过对儿童脑波信号以及微表情的数据收集,同时利用计算机技术与心理学的科学交叉,提升对儿童心理焦虑状况识别效果的报道,但本发明所述在进行心理测评过程中,除了传统的量表施测外,同时结合微表情算法,还利用了振动图像检测技术以及深层次语音情感分析技术,对心理健康进行评估预警,在现有技术的文献中未见述及;
5、本发明创新性地提出心理健康快速筛查方法,通过检测异常心理活动产生的潜意识反映在个体外在表现的生理反应特征,包括微表情,颈部肌肉振动,语音语调等,进行多模态融合后,与正常人的生理反应特征进行相似度比对,从而快速判断心理健康状况。
技术实现思路
1、本发明提出了一种基于多模态融合技术的非接触式心理状态评估方法与系统,在进行心理测评过程中,除了传统的量表施测外,同时结合微表情算法,可以快速判断心理健康状况,本发明通过以下技术方案来实现。
2、本发明的一种基于多模态融合技术的非接触式心理状态评估系统,其特征在于,该系统包括:数据采集设备、输出设备和算法计算单元;所述数据采集设备用于采集特征点;所述输出设备用于数据传输;所述算法计算单元用于利用计算单元的算力进行多模态语义特征提取和多模态融合分析。
3、上述的基于多模态融合技术的非接触式心理状态评估系统,其进一步特征在于,所述数据采集设备包括侧面特征采集摄像头、正面特征采集摄像头和拾音器;所述侧面特征采集摄像头的像素需要不小于200w,最高分辨率需要达到1920×1080,支持2.7mm—13.5mm镜头且可变焦;所述拾音器的频率响应需达到20-20khz,灵敏度达到-42db,信噪比不小于60db,码率64kbps/128kbps。
4、进一步的,上述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述系统还包括:
5、侧面视觉采集模块,用于从所述侧面特征采集摄像头实时采集视频流,提取人体的头、颈、肩部的特征点;
6、正面视觉采集模块,用于从所述正面特征采集摄像头实时采集视频流,提取人面部肌肉单元的特征点,眼睛动线的特征点,头部朝向的特征点,以及颈、肩部正面肌肉特征点;
7、语音特征采集模块,用于从所述拾音器采集说话时候的音频流,提取人说话时候的韵律特征点;
8、脸部微表情特征分析模块,用于提取人脸68个特征点进行表情聚类,利用所述提取的特征点生成8种情绪分类;
9、肌肉振动影像分析模块,用于分析脸部,颈部,肩部的46个肌肉单元特征,计算其振动频率和动作强度;
10、深层次语音情感分析模块,用于从语音流中提取最具代表性的特征值,所述特征包括23个特征值;
11、基于视线估计分析模块,用于通过对眼球瞳孔的视线方向和眼球位置提取特征,拟合提取情绪分类和眼球转动方向/视线方向的相关性特征;
12、多模态融合计算模块,用于对所有模块采集的特征点,针对人的攻击性,情绪能量场,焦虑程度,谎言程度,心理情绪稳定状态进行融合从而得到相应心理状态指标。
13、进一步的,上述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述系统包括快速评估模式、自测评估模式和谈话评估模式三种工作模式。
14、上述的基于多模态融合技术的非接触式心理状态评估系统,其进一步特征在于,所述快速评估模式具体包括以下步骤:
15、步骤11)操作员填写被测人的详细信息,系统加载测试界面。
16、步骤12)被测人进入测试房间后,坐在数据采集设备面前,调整好距离以及姿势,操作员解释测试程序并开始进行测试,侧面特征采集摄像头、正面特征采集摄像头和拾音器开始采集被测人的特征点,被测人确保60秒内保持静止,没有晃动,拍手等肢体动作;
17、步骤13)测试完成后,被测人离开房间,系统生成结果并返回初始模式。
18、进一步的,上述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述自测评估模式具体包括以下步骤:
19、步骤21)操作员填写被测人的详细信息并选择相关测试问卷,系统加载测试界面;
20、步骤22)被测人进入房间后,坐在数据采集设备面前,调整好距离和姿势,操作员解释测试程序并离开房间,让被测人独自完成测试;
21、步骤23)被测人确认其个人信息,开始进行测试,侧面特征采集摄像头、正面特征采集摄像头和拾音器开始采集被测人的特征点,被测人逐一用语音回答屏幕出现的问题,在测试过程中,被测试人没有肢体动作;
22、步骤24)测试完成后,被测人离开房间,系统生成结果并返回初始模式。
23、进一步的,上述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述谈话评估模式具体包括以下步骤:
24、步骤31)操作人员向被测人介绍测试的性质,告知被测人大声清晰地回答问题;
25、步骤32)操作员填写被测人的详细信息,并选择要执行的测试;
26、步骤33)操作员打开心理健康筛查系统并加载所选问题脚本;操作员逐一朗读问题,每读一个问题,等待被测人回答完成后,再读下一问题,同时系统监测对话,分析被测人的回答;
27、步骤34)测试完成后,系统自动创建心理状态评估报告并存储。
28、进一步的,上述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述系统的工作环境需要保持清洁安静。
29、本发明的一种基于多模态融合技术的非接触式心理状态评估方法,其特征在于,该方法通过数据采集设备采集得到多模态数据,然后对所述多模态数据分别提取面部微表情、肌肉动作单元振动强度、头颈肩正面和侧面的肌肉振动影像以及语音语调的情感特征向量,利用transformer多模态融合框架计算所述情感特征向量得到在帧序和空间域上综合振动频率的分布,将计算得到的综合振动频率和正常状态人的综合振动频率比较,从而映射到心理情绪状态能量、焦虑程度、攻击性程度和谎言程度的分类并计算相应心理状态程度的评估得分。
30、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述融合技术方法包括特征层融合和决策层融合并不同多模态融合模型上采用不同置信度计算方法;所述置信度指的是不同模态对最终预测结果的贡献,通过置信度可以实现多模态模型更加关注信息表达饱满的模态,减少模糊模态对最终结果的干扰;在所述特征层融合模型上,利用relu和softmax分配不同模态的置信度;在所述决策层融合模型上,利用多元回归模型和相关性分析分配不同模态的置信度。
31、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述融合技术方法具体步骤包括:
32、首先在分类器层面上进行第一轮融合,然后在模态层面上进行第二轮融合;所述融合方法需要为每个分类器以及每个模态动态分配权重,权重分配后,依次实现分类器决策融合与模态信息融合;
33、单模态分类器决策融合,是对每个单模态分类器的预测概率进行默认加权求和:
34、多模态信息融合,对单模态决策的结果,将环境噪声加入权重计算进行加权求和;
35、普通的融合模型仅由应用于多模态输入的常规transformer组成;对于给定长度为t秒的视频clip,首先统一采样f个rgb帧,并将音频波形转换为单个谱图,然后用类似vit中的方法,将帧和谱图转换成token,并将所有的token拼接在一起,成为一个序列;形式上,如果从f个采样帧里面提出了nv个rgb和na个谱图则输入的token序列可以表示为z=[zrgb‖zspec],其中zrgb=g(xrgb,ergb,zcls-rgb),zspec=g(xspec,espec,zcls-spec);对于rgb patch和谱图patch,采用了不同的投影函数ergb,espec;还为每个模态分配了一个分类token,然后在这些多模态token上采用transformer层以获取跨模态的融合信息zl+1=transformer(zl,θ);
36、将所述模型推广到每个模态拥有各自独立的参数θrgb,θspec,并利用注意力机制交互不同模态的信息:
37、
38、
39、其中交叉transformer采用交叉注意操作;所述交叉注意操作表示为:
40、
41、所述交叉transformer层的参数θrgb,θspec对于每个模态都是不同的;
42、基于所述融合技术方法将微表情68微特征向量、语音情感23维特征向量和肌肉振动的4维向量进行交叉transform融合计算后的得分与通过比较测试和通过与eeg,gsr,ecg方法和buss-durkee心理测试得到评估结果进行多元回归。
43、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述心理情绪状态能量评估得分计算方法用以下公式来表达:
44、
45、其中ei为第i种情绪;是脸部肌肉振动,头颈肩肌肉抖动,声带微振动的做功的时间变化微动和微振动的形式,该数值由多模态融合计算得到具体得分;为脸部肌肉振动,头颈肩肌肉抖动,声带微振动的做功的空间分布微动和微振动的形式,该数值由多模态融合计算得到具体得分。
46、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述焦虑程度的计算方法用以下公式表示:
47、
48、其中pi(f)为振动频率分布的光谱功率;fmax为进行多模态融合计算后得到各个模态中振动频率分布频谱中的最大频率。
49、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述攻击性程度的计算方法包括:
50、通过基本数学特征来表征每个分布:m1为数学期望,s为均方根偏差,m2为频率值对应最大分布;提供的频率分布的数学特征取决于人的状态,注意力聚焦导致频率振动分散的减小,即人的所有个点和器官同步工作;对于侵略状态是异步过程;
51、攻击性程度的计算方法用以下公式表示:
52、
53、其中ag为侵略水平;fm为频率分布密度直方图中最大值的频率;fi为在n帧期间获得的频率分布密度的直方图中具有第i个频率的fi计数;fin为输入处理振动频率;n为n帧中帧间差异高于阈值的计数。
54、进一步的,上述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述谎言程度的计算方法用以下公式表示:
55、
56、其中pch为超过设定限制的参数;pc为确定谎言水平时测量的振动参数;k为测量pch的显著性系数;n为测量参数的数量;m为更改参数的数量。
57、本发明采用以上技术方案,具有以下有益效果:
58、本发明采用血流信息光学成像技术、视频图像微振动分析技术和深层次语音情感分析技术,与现有的心理测评技术相比,除了传统的量表施测外,本发明同时结合微表情算法,通过算法摄像头对人面部、颈部肌肉震颤的微动信息捕捉以及拾音器对人语音声纹采集,从而达到对焦虑、自信、攻击性等多项心理状态指标、情感状态等的识别,并进行多模态融合算法进行综合分析,与正常人心理状态特征向量矩阵相似度比对,可以更加快速且正确判断心理健康状况。
1.一种基于多模态融合技术的非接触式心理状态评估系统,其特征在于,该系统包括:数据采集设备、输出设备和算法计算单元;所述数据采集设备用于采集特征点;所述输出设备用于数据传输;所述算法计算单元用于利用计算单元的算力进行多模态语义特征提取和多模态融合分析;该系统包括快速评估模式、自测评估模式和谈话评估模式三种工作模式。
2.根据权利要求1所述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述数据采集设备包括侧面特征采集摄像头、正面特征采集摄像头和拾音器;所述侧面特征采集摄像头的像素需要不小于200w,最高分辨率需要达到1920×1080,支持2.7mm—13.5mm镜头且可变焦;所述拾音器的频率响应需达到20-20khz,灵敏度达到-42db,信噪比不小于60db,码率64kbps/128kbps。
3.根据权利要求1所述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,该系统还包括:
4.根据权利要求1至3之一所述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述快速评估模式具体包括以下步骤:
5.根据权利要求1至3之一所述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述自测评估模式具体包括以下步骤:
6.根据权利要求1至3之一所述的基于多模态融合技术的非接触式心理状态评估系统,其特征在于,所述谈话评估模式具体包括以下步骤:
7.一种基于多模态融合技术的非接触式心理状态评估方法,其特征在于,该方法通过数据采集设备采集得到多模态数据,然后对所述多模态数据分别提取面部微表情、肌肉动作单元振动强度、头颈肩正面和侧面的肌肉振动影像以及语音语调的情感特征向量,利用transformer多模态融合框架计算所述情感特征向量得到在帧序和空间域上综合振动频率的分布,将计算得到的综合振动频率和正常状态人的综合振动频率比较,从而映射到心理情绪状态能量、焦虑程度、攻击性程度和谎言程度的分类并计算相应心理状态程度的评估得分。
8.根据权利要求7所述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述融合技术方法包括特征层融合和决策层融合并不同多模态融合模型上采用不同置信度计算方法;所述置信度指的是不同模态对最终预测结果的贡献,通过置信度实现多模态模型更加关注信息表达饱满的模态,减少模糊模态对最终结果的干扰;在所述特征层融合模型上,利用relu和softmax分配不同模态的置信度;在所述决策层融合模型上,利用多元回归模型和相关性分析分配不同模态的置信度;
9.根据权利要求7所述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述心理情绪状态能量评估得分计算方法用以下公式来表达:
10.根据权利要求7所述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述焦虑程度的计算方法用以下公式表示:
11.根据权利要求7所述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述攻击性程度的计算方法包括:
12.根据权利要求7所述的基于多模态融合技术的非接触式心理状态评估方法,其特征在于,所述谎言程度的计算方法用以下公式表示:
