一种面向心理治疗的虚拟医生培训系统的制作方法

    专利2026-01-24  7


    本发明涉及人工智能,特别涉及一种面向心理治疗的虚拟医生培训系统。


    背景技术:

    1、现有的医患对话大语言模型是一种基于人工智能技术的模型,它运用自然语言生成技术,能够理解患者的问题和需求,然后以自然语言的方式生成回应,其目的在于模拟医生与患者之间的对话,提供医学建议、解释医学信息,并满足患者的医疗需求。然而,这些现有的医患对话模型存在一些限制,如缺乏专业的心理学和心理治疗知识培训,因此可能提供不准确、不适当,甚至危险的建议,同时无法提供情感互动。通常情况下,这些模型在多轮对话方面表现较差,特别是在专门的心理治疗领域,因为它们的对话上下文连接能力相对较弱,导致无法提供个性化的建议和治疗计划,也无法有效处理情感和提供情感支持,也无法为患者提供持续的治疗监督。

    2、目前从人物图像中提取人脸相关系数的模型中,基于3dmm的算法otavatar虽然可以提取到肖像图像的身份、表情、姿态参数,但是不能获得面部细节的参数,导致生成的人物面部细节较少,比如缺少皱纹等。而基于flame的deca,不仅能获得身份、表情、姿态参数,而且可以获取更多面部细节。但是二者的共同缺点是无法获得直接控制嘴部动作的系数。


    技术实现思路

    1、为了解决上述问题,本发明提供以下技术方案:

    2、本发明提供一种面向心理治疗的虚拟医生培训系统,包括对话文本转换模型、智能医患对话模型和虚拟医生表情生成模型;

    3、患者语音或键盘输入文本数据时,所述对话文本转换模型将文本数据进行编码后转换为智能医患对话模型可接受的向量格式,并将转换成的向量输入至智能医患对话模型,所述智能医患对话模型生成多个候选回复向量,智能医患对话模型使用解码器将候选回复向量解码为回复文本,回复文本解码后智能医患对话模型对其生成的候选回复文本按照数据集中的回答监督数据计算每个回复正确性,并按照正确性高低对候选回复文本进行排序,将排序最高的候选回复文本输入至虚拟医生表情生成模型,所述虚拟医生表情生成模型根据回复文本提取情绪信息生成相应的表情,并对候选回复文本以及生成的表情进行渲染发送至患者。

    4、排序为生成结果的正确性排序,在模型微调训练阶段(构建过程)通过训练数据进行监督,模型去做next token prediction任务,通过输入的对话文本,会生成多个结果,结果由解码器解码并由数据集中的回答监督打分,输出最好结果。

    5、优选的,当患者需进行多轮对话时,患者的本轮文本数据输入以及上轮对话历史作为智能医患对话模型的输入,然后通过虚拟医生表情生成模型输出回复及虚拟医生表情。

    6、所述智能医患对话模型的构建过程为:

    7、s100,在海量医疗领域文档数据集上基于基础大语言模型llm进行二次预训练pt(continue pretraining),采用lora算法训练模型,将模型参数保存得到二次预训练权重参数pt;

    8、所述预训练是指使用大规模的文本语料对模型进行训练,一般采用的训练方法是基于最大似然估计的无监督学习,通过最大化文本序列的似然概率来优化模型参数。

    9、优选的,所述基础大语言模型llm为chatglm2-6b基模型,chatglm2-6b是开源中英双语对话模型chatglm-6b的第二代版本,包含28个glm层,具有约60亿参数,拥有更强大的性能。

    10、优选的,所述海量医疗领域文档数据集,是通过互联网或相应资料原始文本数据收集医疗领域文档知识及针对性的心理治疗相关知识,其训练格式为非结构化的自然语言文本,通过设置最大序列长度分行,以每行一个样本构成的多行文本,每行只有text文本字段。

    11、s101,将二次预训练权重参数pt合并到基础大语言模型llm中,合并得到医学领域知识模型medicalgpt-pt;

    12、s103,在心理治疗多轮医患对话数据集上对医学领域知识模型medicalgpt-pt进行有监督微调sft(supervised fine-tuning)训练,对齐指令意图使用lora训练模型,获得对话预训练权重sft;

    13、优选的,所述对话预训练权重sft训练步骤为:医学领域知识模型medicalgpt-pt通过有监督的prompt数据进行精调,其实就是做next token prediction任务,训练中只计算医生对话部分token的损失微调模型,对齐指令意图。

    14、优选的,所述心理治疗多轮医患对话数据集,通过医院获取医患真实对话案例文档,将对话内容截取并按医患身份标记对话;将每个对话进行整合为多轮一问一答格式,由人工标注所有问答,专业医生按照回答流畅度、正确性方面综合考虑对数据中的问答由高到低评分(0-1),将评分数据写入评分参数属性imp;数据形式以sharegpt为基础的格式,每轮对话为一条样本,每条对话样本包含from、value、imp字段,具体形式为[{"from":"human","value":"text","imp":"0~1"},{"from":"gpt","value":"text","imp":"0~1"}],from、value分别表示身份和对话内容,imp表示评分,数据准确性越高imp分数越高;数据集以json格式保存。

    15、s104,将对话预训练权重sft合并到医学领域知识模型medicalgpt-pt中,得到具有多轮对话能力的心理治疗医患对话模型medicalgpt-sft;

    16、s105,在心理治疗问答偏好数据集上对具有多轮对话能力的心理治疗医患对话模型medical-sft进行直接偏好优化dpo(direct preference optimization)训练,获得偏好训练权重dpo;

    17、所述心理治疗问答偏好数据集通过手动构建,将数据集变为reward数据格式,包含字段<prompt,chosen,rejected>,以行为单位保存为回答偏好数据集,该数据集中的一个问题具有最优和次优两种不同的回答结果,心理治疗问答偏好数据集具体形式为:

    18、{"prompt":"text0","chosen":"text1","rejected":"text2"},其中prompt代表问题,chosen代表相应的选择回答,rejected列出相应的负面回答,通过训练模型参数的奖励参数影响回复评价结果使模型输出更有利于人类偏好回答。

    19、心理治疗问答偏好数据集主要目的使模型学习更类人的回答,该数据通过直接偏好优化dpo方法去训练,具体选择由模型dpo阶段优化训练,指定要训练的模型中有一个用于计算偏好和拒绝响应的隐式奖励的参考模型,它将受限奖励最大化问题视为基于人类偏好数据的分类问题,即chosen的回答的结果更有利于人类偏好回答,模型在学习过程中优先选择该数据。

    20、s106,将偏好训练权重dpo合并到medicalgpt-sft模型中,得到针对心理治疗的智能医患对话模型medicalgpt-psy。

    21、针对心理治疗智能医患对话模型medicalgpt-psy生成的针对心理医生智能医患对话更接近真实对话语境,更加流畅,可用性更高,通过对具有心理问题的患者进行智能对话进行基础的治疗培训,为下一阶段虚拟医生的表情生成提供对话数据支持。

    22、进一步的,所述虚拟医生表情生成模型,包括:

    23、tts文本转语音模块,用于将心理治疗的智能医患对话模型输入的文本数据转换为语音音频;

    24、情绪特征转换模块,用于从tts文本转语音模块转化的语音音频中学习情绪特征并将其转换到隐空间(latent space),

    25、人脸系数生成模块,用于生成虚拟医生单帧图像的人脸系数编码,人脸系数生成模块包含第一编码器与第二编码器,第一编码器用于根据人脸图像生成图像中人物的主要参数,包括人脸形状、表情、反射率、光照度和头部姿态等参数;第二编码器用于生成图像中人物的细节参数,包括生成表情、姿态、光照度、人脸形状和脸部皱纹等能更详细表达面部细节的参数;

    26、人脸系数转换模块,用于生成最终人脸系数;

    27、表情渲染生成模块,用于将最终人脸系数渲染为rgb图像并将图像合成视频。

    28、进一步的,所述tts文本转语音模块的具体步骤为:

    29、s211,将文本数据按照发音分解为音素序列;

    30、s212,将音素序列转换为包含音量、语调和音高的声学特征序列;

    31、s213,将声学特征序列中的声学特征转换为数字信号;

    32、s214,将数字信号通过输出设备转为模拟音频语音信号。

    33、进一步的,所述情绪特征转换模块的具体实现步骤为:

    34、将tts文本转语音模块生成的语音信号输入到时序卷积网络tcn(temporalconvolutional network)中提取语音信号特征;并将语音信号特征输入transformer编码器将语音信号情绪特征转换至隐空间。

    35、进一步的,所述人脸系数生成模块的具体实现步骤为:

    36、s221,第一编码器读取特定虚拟医生形象图像特征,计算出人脸形状、表情、反射率、光照度和头部姿态;第二编码器读取特定虚拟医生形象图像特征,生成表情、姿态、光照度、人脸形状和脸部皱纹细节等能更详细表达面部细节的细节参数;所述特定虚拟医生形象图像采集自医生的照片,可通过第一编码器读取任意选择的照片生成对应的虚拟特征形象,虚拟形象包含照片所描述的大部分特征。可预先使用第一编码器随机选择医生照片生成多个预设虚拟医生形象特征,选取效果较好的特征构成虚拟形象数据库,供患者快速选择。

    37、s222,将第一编码器生成的主要参数输入到基于codebook为骨架的网络videocodebook中变换维度获得较为粗糙的第一虚拟医生的隐编码;将第二编码器细节参数输入到另一个基于codebook为骨架的网络videocodebook中变换维度获得较为细节的第二虚拟医生的隐编码;视频码本(videocodebook)是由码本(codebook)和多层感知机(mlp)组合而成,视频码本用于将离散的人脸系数转换成连续的隐编码。

    38、s223,将第一虚拟医生的隐编码与第二虚拟医生的隐编码结合得到人脸系数编码。

    39、进一步的,所述人脸系数转换模块的具体实现步骤为:

    40、将人脸系数编码转换成人脸系数隐编码,将有着人物特征的人脸系数隐编码与情绪特征转换模块输出的隐空间整合得到最终人脸系数。

    41、优选的,人脸系数转换模块在隐编码转换到隐空间过程中还可修改转换过程生成不同的表情或者动作。

    42、优选的,所述修改转换是指人脸系数转换模块还可将多个人的隐编码生成后,截取其中一人的隐编码的前半部分结合另外一个人的后半部分生成一个新的隐编码,为虚拟医生添加各种不同的表情或者风格。

    43、进一步的,所述表情渲染生成模块的具体实现步骤为:

    44、s231,将有着人物特征的人脸系数隐编码与情绪特征转换模块输出的隐空间编码映射到三维正交平面,然后再将三维空间的点(x,y,z)映射到三个二维的平面xy、xz和yz上,再将三个平面的点进行相加通过两层全连接层重建得到重建后的人脸图像特征;

    45、s232,通过风格对抗生成网络(stylegan)的生成器将该重建后的人脸图像特征转换为重建后的新rgb图像集合;

    46、s233,通过进行超分辨网络提高新rgb图像集合的分辨率;

    47、s234,将rgb图像集合按照时序组装成为视频流并与tts文本转语音模块生成的语音音频结合形成最终视频。

    48、本发明具有以下有益效果:

    49、(1)本发明提出一种针对心理治疗的多轮智能医患对话模型和虚拟医生表情生成模型,相比于现有的医患对话模型,能够更好的理解对话上下文,为患者提供更准确、连贯和有针对性的心理治疗建议,并且患者在与虚拟医生对话同时生成符合患者需要的虚拟医生表情,更好的与患者互动交流,更好地实现患者与医生之间的沟通和交流,增强是心里治疗的效果。

    50、(2)本发明设有虚拟医生表情生成模型可以通过针对心理治疗的多轮智能医患对话与生成的虚拟医生表情视频的协同下,与患者进行更真实的类人对话,提高患者的舒适感与治疗效果,帮助心理医生辅助患者的诊断与治疗,在多方面对患者治疗产生积极影响。

    51、(3)本发明通过针对心理治疗的智能医患对话与虚拟医生表情生成应用于心理治疗领域,能够更真实的模拟临床场景与患者互动,更好地满足不断增长的心理治疗领域的培训需求。


    技术特征:

    1.一种面向心理治疗的虚拟医生培训系统,其特征在于,包括对话文本转换模型、智能医患对话模型和虚拟医生表情生成模型;

    2.根据权利要求1所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述智能医患对话模型的构建过程为:

    3.根据权利要求2所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述心理治疗多轮医患对话数据集,通过医院获取医患真实对话案例文档,将对话内容截取并按医患身份标记对话;将每个对话进行整合为多轮一问一答格式,由人工标注所有问答,专业医生按照回答流畅度、正确性方面综合考虑对数据中的问答由高到低评分,将评分数据写入评分参数属性imp;数据形式以sharegpt为基础的格式,每轮对话为一条样本,每条对话样本包含from、value、imp字段,具体形式为[{"from":"human","value":"text","imp":"0~1"},{"from":"gpt","value":"text","imp":"0~1"}],from、value分别表示身份和对话内容,imp表示评分,数据准确性越高imp分数越高;数据集以json格式保存。

    4.根据权利要求2所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述心理治疗问答偏好数据集通过手动构建,将数据集变为reward数据格式,以行为单位保存为问答偏好数据集,该数据集中的一个问题具有最优和负面两种不同的回答结果,心理治疗问答偏好数据集具体形式为:

    5.根据权利要求1所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述虚拟医生表情生成模型,包括:

    6.根据权利要求5所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述tts文本转语音模块的具体步骤为:

    7.根据权利要求5所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述情绪特征转换模块的具体实现步骤为:

    8.根据权利要求5所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,人脸系数生成模块的具体实现步骤为:

    9.根据权利要求5所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,人脸系数转换模块的具体实现步骤为:

    10.根据权利要求5所述的一种面向心理治疗的虚拟医生培训系统,其特征在于,所述表情渲染生成模块的具体实现步骤为:


    技术总结
    本发明涉及人工智能技术领域,提供一种面向心理治疗的虚拟医生培训系统,包括对话文本转换模型、智能医患对话模型和虚拟医生表情生成模型;患者语音或键盘输入文本数据时,所述对话文本转换模型将文本数据转换为向量,并将转换成的向量输入至智能医患对话模型,所述智能医患对话模型生成多个候选回复并对其生成的候选回复进行排序,将排序最高的候选回复分别输入至虚拟医生表情生成模型,所述虚拟医生表情生成模型根据回复内容提取情绪信息生成相应的表情,并对对候选回复以及生成的表情进行渲染发送至患者。本发明应用于心理治疗领域,能够更真实的模拟临床场景与患者互动,更好地满足不断增长的心理治疗领域的培训需求。

    技术研发人员:杨文军,杨雨彬,陈锋,高阳
    受保护的技术使用者:杭州同绘科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-94177.html

    最新回复(0)