当前,抑郁症、焦虑症等心理障碍成为社会关注的焦点,如何有效地缓解和治疗这些心理问题成为一个重要的研究方向。在这样的背景下,如何利用AI等先进技术手段来辅助心理疾病的治疗备受关注。例如,通过语音、脑部MRI辅助诊断器质性抑郁、通过多种语言模式的聊天机器人对患者的心理状况进行有效干预等,相关诊疗方案不一而足。
本次「AI+心理」研讨会,智源社区邀请到相关技术专家和心理学专家共同探索人工智能技术在心理学领域的应用。以下为精华内容整理,供读者参考。
目录
◆ 华中师大周宗奎:数字化生态——行为与环境的重构
◆ 心识宇宙十三维:心灵的算法——AI 在心理治疗中的光明之旅
◆ 上海交大吴梦玥:言语智能模型+精神疾病诊疗
◆ 湖北大学邓晓红:从心理咨询角度看「AI+精神健康」
对话嘉宾(无先后顺序)

蓝振忠丨西湖心辰创始人&CEO
十三维丨心识宇宙研究院院长
邓晓红丨湖北大学教授、武汉心理咨询师协会会长
周宗奎丨华中师范大学教授
吴梦玥丨上海交通大学副教授
邓一帆丨中国科学院信息工程研究所

张兴盛丨中国科学院信息工程研究所

青源Workshop丨No.23
AI+心理干预
数字化生态——行为与环境的重构
周宗奎丨华中师范大学教授
从心理学的角度来说,我们当前所面临的数字化生态会对人类的行为和环境产生重构。心理学往往从个体和群体两个维度来考察人的心理行为表现。从个体的角度来说,人的成长和行为的表现形式由遗传因素和环境因素共同决定,并沿着时间展开。从种系的角度来说,人类目前在所有物种之中取得了进化的优势。从行为层面来说,人工智能(AI)将扮演怎样的角色?这一新兴技术会成为人类个体成长和群体进化过程中所使用的最新工具?还是成为人类的对手?
进化:技术与人的双重进化
人类的智能是进化的高级产物。从单细胞生物进化到人类的形态,足足经过了 35 亿年,而有文字记载的人类文明不过几千年,AI 的历史则只有短短几十年的时间。作为人类文明的产物,AI 进化到一定阶段后一定会反过来影响人类进化,它可能成为证明人类存在过的「化石」,证明硅基生命的演化过程。
我们可以从个人发展、人类种系发展两个维度考虑心理发展。
在个人层面,个人发展与 AI 等数字技术的应用关系密切,人类会产生心理和行为的代际差异。不同年龄层的用户会在行为形态、生活方式上体现出一定区别,在社会观念层面上也会体现出价值观的变化与代沟。
在种系层面,我们可以基于宏观的人类发展和进化视角理解 AI 的发展和应用。例如,人类从大约 110 年前开始测量智商,「IQ 弗林效应」表明,每隔大约 10 年人类的智商会相较于前人提高 3分;「记忆的 Google 效应」则指出,随着对搜索引擎的使用,人类会将记忆「外包」,改变内在的记忆加工方式。因此,AI 对人类智力发展的影响是群体智慧的高效结晶,在各个领域产生高效应用,会改变人的行为,进化的逻辑和方式。
AI 技术将加速数字化生态的建构和演变,加速改变人与技术的关系。从研究对象来看,我们可以从「个体-人际-种系」三个尺度上研究演变过程,交互主体包括「人机交互-人际交互-人机脑交互」,交互介质的数字环境可归纳为「Media-Internet-Cyber-space/Digital-world」。
网络第三空间假说
法国当代技术哲学家贝尔纳•斯蒂格勒认为:在物理学的无机物和生物学的有机物之间有第三类存在,即属于技术物体一类的有机化的无机物。华中师范大学周宗奎教授团队受此启发,提出了「网络第三空间假说」:网络存在依赖于计算机和网络硬件,人们基于主观能动使用在网络空间中进行各种活动,但支撑控制软件与信息内容的生成与运作又构成了自成一体的系统,有其内在的动力机制。网络空间是介于物理空间和精神空间之间的「第三空间」。具体而言,在研究网络第三空间时,我们要重点强调时间、空间、人际等独立的维度对人类自我的影响。
进入 AI 时代后,我们需要思考:AI 的进展是否意味着数字化生态和第三空间中开始出现自我进化的动力?心理与行为的进化是否也会随之加速?
实际上,一些研究成果已经反映出人类对 AI 的感知和态度。例如,脑成像研究的初步证据显示,人对人工智能普遍有一种恐惧倾向,在使用人工智能后人类用于感知威胁的脑区会被激活。我们在内隐态度层面将人工智能作为未知、高级的活动对象并列或对立于人类自身,并且会感受到威胁。
  • 案例:记忆的 Google 效应

记忆的 Google 效应反映出技术对心理的深远影响。Sparrow 等人在《科学》上发表论文《Google effects on memory》中,通过实验证实:
(1)当人们遇到问题时,会想到通过上网检索信息解决问题
(2)被告知信息或被抹去的被试会比被告知信息会自动保存的被试记住更多信息
(3)被告知信息不会被保存的被试者会记住信息本身的内容,而被告知信息会被保存的学生则清楚地记得信息保存的位置。
  • 案例:社交网络使用的心理效应

Verduyn 在《Journal of Experimental Psychology》上发表的论文《Passive Facebook Usage Undermines Affective Well-Being》中,将被试分为主动组(可发布状态)和被动组(只允许浏览好友状态,无法评论、点赞)。实验表明,被动地使用社交媒体,会降低主观幸福感,影响自我概念的发展。
此外,基于大数据分析和智能决策实现的人格测评系统,比传统的测评准确得多。
  • 案例:网络信息搜索的心理效应

在群体心理方面,离网络新闻发生地越近的人群往往心态受到影响的程度越大,这是作为网络知觉的一种心理改变。网络搜索会让人过高估计自己的知识和能力,产生盲目的自信,甚至在自我知觉上发生变化。这也会导致一些相关的心理健康问题,(例如,网络偏差行为)。可见,认知决策会受到网络搜索结果的影响。
手机、网络游戏、社交媒体等数字化生态会对人的行为、社会性人格、认知、大脑结构、脑活动、脑机制产生影响。
数字化生态与网络自我
青少年在成长发展中,在数字化环境下表现出脆弱性、敏感性。
人际交往和社会环境在自我发展中起着核心作用,作为网络时代人际交往的重要手段和平台,社交媒体已经成为影响个体发展的重要环境因素。个体在网络中通过自我表征和自我探索来构建自我,实验自己不同的价值观和人格。网络成为了青少年自我探索的理想空间,提供了诸多的社会比较,对个体的自我认识、自我概念和自尊产生极大的影响。
此时,人们在网络空间中展现出网络自我(虚拟自我),是人们在网络世界中形成的一种有别于真实自我的状态,指以计算机为媒介的人际沟通环境中表现出来的人格、体验或个人身份。网络并没有创造新的自我,而是扩展了现实自我,网络自我是现实自我在网络空间中的扩展和延伸。
此外,真实的社交空间是具身的,而传统的网络虚拟空间是非具身的。随着具身智能的兴起,具有具身性的机器人、数字人对人的意识加工会产生新的影响。
自我建构是理解青少年发展与数字化环境、AI 关系的核心。数字化环境对青少年自我构建行为的参与性、互动性、从众性有放大作用,对其从基本认知到自我构建和社会行为,有全方位、深度、长期的作。人们在使用网络、AI 应用的过程中,会实现自我补偿、自我替代。
如上图所示,技术环境、个人特征、使用方式三个因素共同影响人的心理行为机制。
数字化时代的心理学研究
华中师范大学周宗奎教授团队的研究为数字化情绪感染提供了生态化和有效性的实证证据。解释了数字化情绪感染可以通过情绪类别化加工和社会评价加工(例如,看情绪化的视频、玩情绪化的游戏、参与情绪化的热点讨论)发生。我们发现,以下三类情况更容易受到数字化情绪的感染:(1)高从属倾向个体(2)亲密关系间(3)高指令性规范的情景中。
我们可以从多个视角理解数字化与心理的关系,确保未来公民的幸福,例如:(1)发展视角:AI 对发展中的儿童青少年的影响,数字技术与人的「双重发展与进化」(2)文化视角:数字化对不同国家和地区青少年影响的差异(3)实践视角:基于证据的政策导向,AI 技术行为安全体系。
从心理学的角度来说,我们关注 AI 如何改变个体心理与社会心理,聚焦于 AI 技术与人的互动。在未来人在成长过程中,必须学会与 AI 的互动,这是一种新型关系,涉及到人的教育。我们对人类的命运与未来可以持有谨慎的乐观,要学会与 AI 相处。
同时,我们还要对 AI 技术和应用规范展开研究。明确 AI 与人互动时的角色。
应用角度:AI 如何改变心理与行为
2020 年初,教育部华中师范大学心理援助热线平台上线。至今,该平台已运行了三年,处理了超过 20 万个求助呼入。该平台将心理咨询与智能融媒体技术融合,引入了 AI 进行心理测评。
该平台能够为心理咨询场景提供更多的社会支持的资源,具有很强的渗透性与可及性,有效提升了咨询效率,对特殊人群十分便利。
然而,在传统的心理咨询关系中,感知理解和改变的对象是人,建立了一种人与人(包括人与自我)的关系,这与 AI 在其它领域的应用有所不同。与传统人类心理咨询师相比,来访者对 AI 心理咨询师角色的接受程度还存在一定局限,AI 与心理咨询技术结合的深度和广度还有待进一步提高。
从开发的角度来说,我们首先要明确 AI 在心理咨询中的角色定位,明确开发的 AI 应用扮演「心理咨询师」、「陪伴者」或是「心理咨询助手」。AI 应用与来访者的关系直接决定其对 AI 应用的信任感,AI 在来访者心中的的权威性,以及二者关系的层次。
浅层的心理需求对心理咨询师的要求并不高,但在更加困难和专业的场景下,对咨询师擅长的领域有更高的要求,这也会影响来访者对咨询师的信任感、权威关系的层次。
AI 心理应用的助人能力,体现在「感知共情」、「沟通技巧和支持途径」、「长短期效果」等方面。我们需要基于产品的定位,对其效果有所预期。基于语言模型的心理干预效果更多取决于干预情景的训练数据,这对数据收集、整理、管理提出了更高的要求。
AI 心理干预(咨询、治疗)研究面临的挑战主要包括:(1)适用于大语言模型训练的专业数据的短缺(2)心理模型/算法基础:理论流派众多,咨询和干预技术多样,目前认知行为疗法(CBT)由于其逻辑清晰,得到了更多技术从业者的支持。(3)伦理和法律风险:数字技术安全,社会管控的法律法规。
除对话之外,我们还期望 AI 能在个人史-数字档案、虚拟人格指导、第三空间与人的健康发展等方面赋能,并加强对其基于证据的引导。
目前,「AI+心理」的研究方兴未艾,未来的研究需要逐步检验 AI 对复杂认知能力的影响,深入探究 AI 技术影响认知的内部作用机制,进一步检验不同 AI 对于个体的影响。由于儿童、青少年大脑的可塑性更高,研究者们要重点考察 AI 技术与人的互动对儿童青少年个体的发展过程的影响。
需要关注的问题包括:(1)技术与人的关系(2)数字化生态中个体心理与行为的特点与规律(3)个体发展的测评(4)个体发展的数据采集与分析技术(5)环境互动设计。
心灵的算法
—AI 在心理治疗中的光明之旅

十三维丨心识宇宙研究院院长

市场现状

如上图所示,「Growth Market Reports」的研报指出:2022 年前后,全球范围内,AI 在精神健康领域应用的市场规模约为九十亿美元,这一数字到 2030 年前后将达到 1200 多亿,年复合增长率是 37.5%。可见,AI 在精神健康领域的发展势头十分迅猛。在技术路径方面,机器学习、自然语言处理(包括大语言模型)、可解释性 AI 等技术都被用于「AI+精神健康」领域。

技术发展现状

据统计,从 1985 年到 2019 年,以四年为一个周期看,「AI+精神健康」领域的论文数从 2010年到 2019 年(深度学习时代来临后)成几何倍数增长。科研领域的井喷式爆发与市场热情相吻合。

「AI+精神健康」应用

「AI+精神健康」的应用类型主要包含以下四个方面:(1)智能分析。基于机器学习技术的特征提取、诊断分类、治疗决策方案生成(2)聊天机器人。基于 NLP(包括大语言模型)的对话生成技术,用于收集来访者精神状态数据,安抚情绪。(3)可穿戴设备。提取来访者生物特征数据。(4)虚拟现实和增强现实。提供直观的物理环境,进行心理干预,为模型训练提供反馈。

智能分析

英国图灵研究所使用多模态(包括生物特征、MRI 数据、对话数据)机器学习技术实现了一个临床系统 PPMS,对个性化数据进行建模,对老年痴呆等疾病实现精准的早期诊断和治疗。该系统可以跨越不同人群和多模态数据进行操作,极大降低了昂贵的筛查、测试成本和时间,通过早期干预和层次化治疗,提高治愈效果、促进药物研发。
聊天机器人
以 Woebot 为代表的聊天机器人可以通过识别用户的情感,提供心理健康支持。识别扭曲思维,将 CBT、IPT、DBT 等技术与人工智能、自然语言处理技术结合,修正用户的认知。Woebot 可以让用户选择适合自己的治疗方式和路径,提供相应的治疗和干预服务。临床研究结果表明,Woebot 可以有效改善用户的情绪状态。

虚拟现实

以 AppliedVR 为例,它将虚拟现实技术融入数字疗法。该公司基于 CBT 和正念疗法研发了 RelieVRx,是第一款获得 FDA 认证的 VR 处方设备,使用了 Komodo Health 人工智能凭条的医疗数据。它结合 VR 场景下的游戏,影响来访者的大脑活动,有效促进神经重塑,改善慢性疼痛、焦虑等情绪。VR 设备可以模拟真实世界的场景,包含多模态信息。
可穿戴设备
BioBeat 等可穿戴设备收集了来访者的生理健康特征,可用于测量心理健康。发现用户有异常之后,会通过接受承诺疗法(ACT),引导用户改善心理状态。
大语言模型
上海交通大学吴梦玥老师团队在论文「LLM-empowered Chatbots for Psychiatrist and Patient Simulation:Application and Evaluation」中,机遇大语言模型构建了「医生机器人」和「患者机器人」两个角色。考虑其扮演的角色,设计相应的输入给大语言模型的提示语,并在人类精神诊断医生的参与下,不断反馈,强化训练语言模型。最终让患者机器人、医生机器人、真实人类医生与患者对话,再让精神科医生打分。在该论文中,作者训练了四个医生:全能机械医生、冷静的医生、自由的医生、通过专业领域数据微调的医生机器人。
实验结果表明,去除了所有预置咨询内容的第三类医生,平均对话的轮次、对话长度,提问次数最低,对抑郁症的诊断的分类、症状的识别准确性却最高。这说明此类医生机器人的问题更灵活、自由,患者感觉被理解,用户体验更好。此外,基于专业领域知识微调的医生机器人效果反而最差。
Mental-LLM 是一个基于 Alpaca、FLAN-T5 针对心理健康领域微调的大语言模型。作者对比 LLM 以及心理健康领域的预训练模型 MentalBert,在各种心理健康预测任务中评估了模型表现,对比了大语言模型在零样本提示、小样本提示和指令微调场景下的性能。
作者指出,指令微调能够显著提升模型性能,可以更好地理解、学习人类的自然语言。最佳的微调模型 Mental-Alpaca 和 Mental-FLAN-T5 在均衡准确度上交 GPT-3.5 的最佳提示设计高出 10.9%,比 GPT-4 高出 4.8%。与最先进的 MentalBERT 性能相当。数据集总体规模固定时,使用多个来自不同源的较小数据集比使用单个较大数据集更有效。GPT 系列模型具有良好的推理能力,而 Mental-Alpaca 和 Mental-FLAN-T5 在分类任务微调下丧失了推理能力。LLM 在推理任务上存在看似可靠的错误预测,存在偏见,距离应用落地还有很长的距离。
可解释性 AI 与心理健康
Dan W. Joyce 等人在论文「Explainable artificial intelligence for mental health through transparency and interpretability for understandablity」中,试图给可解释性进行定义,认为「Explainability=transparency+interpretability」。其中,transparency 指内部工作原理,interpretability 指模型的输出和预测。
言语智能模型+精神疾病诊疗
吴梦玥丨上海交通大学副教授
「言语智能+精神疾病」的研究主要涉及三种模态的数据:(1)语音。根据声学特征,进行精神疾病的分析或筛查,识别生物标志物,区分抑郁症、帕金森综合征、老年痴呆症、失语症等疾病的患病人群和健康人群。这些疾病可能会导致大脑对运动的控制发生改变,影响发声器官的运用。(2)文本。包括根据对话语音转写出的文本,以及社交媒体上跨长时间维度的文本信息。基于文本的分析更适合判断复杂的心理健康问题及其严重程度。(3)对话。机器实时生成指示,以提问的方式引导对话的进行,监测对话历史。

基于语音的疾病检测

基于语音的疾病检测面临诸多挑战,我们希望模型同时具备很强的预测性能和可解释性。但是,在深度学习场景下,以上两个要求很难兼顾。为了使模型具备较强的泛化能力,我们往往会使用复杂的高维特征,此类特征往往具有很强的跨测试集的鲁棒性,但是并不具备物理意义。
就可解释性特征而言,传统的语音分析技术基于声调、声音质量、发生道特征等维度的特征提取出来,具有很强的物理意义。然而,此类模型对数据的依赖程度很高,泛化性能较差。
除了精神卫生相关的疾病(例如,抑郁症、焦虑、认知障碍、老年痴呆等)。基于语音的疾病检测技术还被用于耳鼻喉科、呼吸科、心脏科、肠胃科、神经内/外科等科室的疾病检测任务。

基于文本的精神疾病检测

尽管声学信号具有挖掘高表现性的潜力,但是受环境、采集设备等因素的影响,声学信号会包含很多噪声。相较之下,文本信息更加稳定,其中包含的语义信息与用户的心理状况往往更加直接相关。
我们基于社交媒体数据进行了长期的研究,跟踪了数万名用户在三年时间内的发帖情况,并筛选出了与心理状况相关的帖子。我们的目标是:
(1)基于可解释的症状提前预警精神疾病的发生。
(2)根据症状采取针对性的干预措施,提升患者的生活品质。
(3)获得更详细的症状发展历史,帮助医生诊断。

基于文本的早期抑郁症检测:高风险帖子筛选

我们使用贝克量表,计算文本与量表条目语义信息的相似度,筛选高危帖子,按照时间早晚、风险程度动态维护 16 条帖子,通过尽可能少的帖子实现尽可能好的早期诊断效果,根据使用的帖子数设置惩罚损失。该方法的分类准确率达到了70.3%,模型的效率也更高。

以症状为桥梁的疾病检测

不同疾病可能具有类似的症状,这为可解释的疾病诊断提供了思路。为了精准识别疾病症状,我们基于 DSM-5 精神疾病诊断手册确定了一系列典型症状,进而仿照临床医生的诊断过程,先对帖子进行症状识别,再根据症状的聚合结果检测用户的精神疾病。这种方法有效提升了检测的精度、效率、可解释性,实现了以症状为桥梁的多疾病检测。
具体而言,我们构建了 DSM-5 手册的知识图谱,确定了 7 种疾病的 38 个症状。如上图所示,许多不同的疾病都可能共享相同的症状(例如,抑郁情绪出现在 5 种疾病中)。我们构建了第一个标准化、大规模、多疾病共享的症状识别数据集,包含共计89,776条文本数据。数据集涉及10,367位患者,7种疾病,每种疾病的平均患者数量为 1481 位。据统计,58.6% 的患者同时患有 2 种及以上的精神疾病(共病)。

对话:诊与疗

将对话技术用于精神健康领域主要涉及「诊」和「疗」两个场景。目前,认知行为疗法(CBT)由于易于规范化和结构化,被 Woebot、Wysa 等聊天机器人广泛采用。小冰则在陪伴患者的过程中采用了正念疗法,引导用户进行冥想,使其变得更加积极乐观。实际上,在更加复杂的情况下,需要对用户进行多种流派疗法的综合治疗。这种主观的选择对于模型而言是巨大的挑战。
与传统的自评量表和黑箱式辅助诊断相比,交互式辅助诊断方式具有更好的可解释性,可以根据先前的对话情况,自主选择需要更加深入了解的问题,选择性地针对某些症状发问。然而,相较于治疗数据而言,问诊数据更稀缺。此类系统涉及诊断准确性以及一系列精神病学问诊策略,更难实现。
对话模型在完成任务的同时,还需要为患者提供情感上的支持,对模型共情能力的要求非常高。在该场景下,面向任务的对话系统和陪伴性的「闲聊」机器人实现了交叉。
2021 年,我们团队基于预训练模型,加入心理健康领域数据进行微调。近期,我们基于大语言模型进行了进一步的探索。值得一提的是,我们这里使用的领域数据并非真实数据,而是利用基于规则的机器人,从人群中收集他们的心理疾病患病状况及严重程度对用户进行画像。
由于难以获取真实的问诊数据,我们邀请了精神科医生、心理学专业的学生扮演医生和病人,模拟临床对话,并邀请资深的精神科医生判断对话是否符合要求,并进行诊断。由此,我们发布了全世界唯一一个精神疾病问诊对话数据集。

基于 LLM 的问诊模型实现与评估

在论文《LLM-empowered Chatbots for Psychiatrist and Patient Simulation:Application and Evaluation》中,我们尝试将 ChatGPT 应用于精神健康场景。在 Prompt 的设计方面,我们考虑如何设计标准prompt以实现更好的医生和患者模拟。
在模型评估方面,我们考虑了以下三个问题:(1)ChatGPT是否能始终像精神科医生一样提问并提供诊断?(2)ChatGPT是否能始终为寻求帮助的用户提供适当的医疗建议?(3)ChatGPT是否始终富有同情心并提供支持?
作为一个医生机器人,主要任务是为患者进行专业的诊断过程并提供准确的诊断。为了实现这一点,一个好的医生聊天机器人应具备以下三个能力:(1)全面性(2)深入提问(3)共情
患者聊天机器人的基本要求是与给定画像一致:这意味着需要在提供的症状列表中准确且理性地描述症状,而不报告任何不存在的症状。为了使聊天机器人更像真实的患者,精神科医生还描述了真实患者在咨询期间常表现的一些行为。
然而,在真实场景下,患者可能表现出一定的抗拒,可能不愿寻求帮助-他们可能保持沉默并拒绝交流,或淡化他们的症状以避免被视为负担。因此,在模型模拟的目的和原始训练目的不一致时,如何对模型进行调优是一个重要的研究方向。
未来,我们考虑在诊疗过程中加入语音模态,实现以对话形式为依托的交互式诊+疗可以很好集成之前的语音、文本为依托的诊断。
在这一研究中,我们发现精神疾病问诊不同于躯体疾病问诊,其症状更主观、隐秘、个性化,因此需要丰富的临床经验给出准确的结果;医生使用的共情策略多样,患者所需的情感支持和普通人的情感对话不同,这一点目前任何模型都很难做到;最关键的不是抑郁症与否的诊断,而是一个疾病和相似疾病的区分,以及多疾病的联合存在 。

小结与展望

未来,AI+精神健康的而言就需要模拟整个医生诊疗的全链路的场景,可以采集多模态的信息进行综合的决策。此外,可穿戴的一个设备,有助于实现长时间跨度的客观信息记录。我们可以将诊疗范围扩展到更多种类的精神疾病,关注更广泛的高危人群。我们希望可以在大规模有效筛查的基础之上,为用户提供更多的支持、陪伴、咨询。
从心理咨询角度看「AI+精神健康」

邓晓红丨湖北大学教授、武汉心理咨询师协会会长

湖北大学心理学系教授,博士毕业于华中科技大学同济医学院,神经内科医生。北京大学、美国西北大学访问学者,从事认知神经科学研究,目前主要从事脑电测谎研究。现任武汉市心理咨询师协会的会长,中国心理学会注册督导师。
今天,我从一个医生、心理咨询师、督导师的角度去谈谈对AI心理咨询的一些看法。在咨询过程中,我采用的方法主要是认知行为治疗(CBT),当然也灵活整合多种方法。
大约 3 年前,我曾经接触一款 AI 心理咨询软件,那个程序反复机械地说“你能多说一点吗?”用户体验不甚理想。
今天参会之前,我尝试了西湖大学的蓝振忠教授团队开发的 AI 心理咨询小程序“心聆”,体验了3分钟,觉得很惊讶。这个小程序比我以前接触到的那个AI心理咨询程序好太多。我讲的话它似乎都能理解,给出的反应也很正确。尽管仍然存在一些问题,但AI心理咨询像这样发展下去,还是非常有希望的。

「AI+心理咨询」的优点

上海交大的吴梦玥老师在报告中提到了用 AI 诊断精神疾病,这对心理咨询界非常重要。如今,人们的精神疾病发病率高,心理问题多,但专业的精神科医生和心理咨询师非常少。我们国家的心理咨询师绝大多数都不是通过学历教育培养出来的,而是通过简单培训、拿到证书就成了心理咨询师,开始做咨询了,对来访者进行诊断评估的能力非常欠缺。
虽然心理咨询师没有对来访者的心理问题做出诊断的权利,但必须要有对来访者的问题进行诊断的能力。如果不能正确的诊断评估,我们做出的处理方案就可能是错误的。可惜的是,绝大多数的心理咨询师没有医学背景,也没有接受过诊断评估的专业训练,无法对来访者做出正确的诊断评估,这会影响到对来访者的处理。
比如,一个来访者找咨询师做咨询,跟咨询师说她很郁闷,咨询师对来访者非常有耐心,耐心地倾听,给予来访者共情理解。咨询六周以后,来访者的负面情绪缓解。大家是不是觉得这个咨询师的咨询非常有效?我也觉得咨询师的咨询是有效的,但我给这个咨询师做督导时,还是指出了咨询中存在的问题:咨询有效但不科学。我问这个咨询师:“来访者郁闷的原因是什么?你的诊断是什么?”。咨询师答不上来。
如果心理咨询师考虑来访者有可能是精神分裂症的病人,或者是双向情感障碍的病人,或者是抑郁症的病人等,正确的做法应该是建议她找精神科医生诊断和治疗。否则的话,给她做咨询的时间越长,就越可能耽误她的治疗。如果在咨询的这六周里,来访者自杀了或者杀人了,这就麻烦了。所以,诊断评估能力对心理咨询师来说太重要了,但遗憾的是,许多心理咨询师最不擅长的就是诊断评估。
采用AI技术提高精神疾病的正确诊断率,不仅有助于帮助心理咨询师开展工作,对精神科医生也有很大帮助,AI 则可以为精神科医生诊断提供辅助参考。
这是因为精神疾病的诊断比较特殊,没有什么实验室检查(比如抽血化验)或者医疗设备(比如CT、核磁共振等)可以帮助精神科医生诊断病人,精神疾病的诊断主要还是依据病人的临床症状和医生的经验。
精神科医生对病人的症状了解得越全面,经验越丰富,诊断的正确率越高,否则,有可能给出错误的诊断。但是,精神科门诊的医生往往没有足够的时间对病人进行全面细致的问诊,病人对自己症状的叙述也不一定准确、全面,有时候出于某种原因可能还会对医生有所隐瞒,这时,医生的诊断就可能出现偏差。
由于精神疾病的诊断还依赖于医生的临床经验,那么,年轻医生的经验可能少一点,老医生的经验可能丰富一点,就会出现“同一个病人找不同的医生看病,医生给出的诊断可能不一样”的情况。我在培训心理咨询师的时候,经常对学员说,最好建议病人或来访者找三个权威的精神科医生看病,综合三个医生的意见得出一个初步诊断。所以,提高AI技术对精神疾病的正确诊断率,不仅可以帮助缺乏诊断评估能力的心理咨询师,也可作为精神科医生诊断病人的重要参考。
周宗奎教授提到AI心理咨询的定位问题,我觉得这个说法非常好这很关键。精神科医生在AI诊断技术的协助下,对病人或来访者做出正确的诊断后,精神分裂症、双向情感障碍、抑郁症等病人应该去找精神科的医生诊断治疗,而没有罹患精神疾病、只是有一些心理问题的人则可以找心理咨询师做心理咨询。
AI心理咨询还有其他优势,例如:为我们提供了新的治疗模式;AI心理咨询经济便捷,不受时间、地点的限制;AI心理咨询在快速学习大量咨询经验与技术后,可根据来访者的具体问题做出比较恰当的反应;可建立心理健康电子档案,形成相应数据库,分析个体心理健康趋势和群体心理发展路径;可通过筛查让有轻度心理问题的人尽早接受专业评估和心理疏导;可减轻精神心理卫生人员的压力,增加接受心理咨询服务的人群数量。
AI心理咨询可以引导来访者进行综合治疗,比如对抑郁症患者进行CBT治疗时,可推出心理健康小文章、正念小程序、饮食治疗的食谱、监督其每天进行的运动等。

「AI+心理咨询」的不足

首先,人工智能技术本身存在数据安全问题,有可能导致来访者的隐私被泄露,那么,在使用AI心理咨询时,要有效保护来访者的隐私不被泄露。
其次,AI心理咨询存在被滥用的可能性。我们经常混淆了“心理治疗”和“心理咨询”这两个概念。没有罹患精神疾病、只是遭遇挫折导致心理健康水平下降、出现心理问题的人需要的才是心理咨询而不是心理治疗。比如,一个孩子最近要考试,比较紧张焦虑,这是考试引发的心理问题,不需要去找精神科的医生,只需要接受心理咨询师的心理疏导或心理咨询就可以了。但罹患精神分裂症或抑郁症的孩子,就需要去找精神科的医生,接受药物治疗、物理治疗或者心理治疗。如果来访者被初步诊断为罹患了精神疾病(尤其是严重的精神障碍,比如精神分裂症、抑郁发作、躁狂发作、双向情感障碍等)以及有中等程度以上的自杀风险,应该将其转介给精神科医生。
共情是心理咨询的一个重要技术,有助于咨询师与来访者建立良好的咨询关系。美国著名的心理咨询大师卡尔.罗杰斯认为,咨询效果的好坏很大程度上取决于咨询师与来访者能否建立良好的咨访关系,咨询师本身也是一个治疗工具,建立良好的咨访关系有语言和非语言的交流,比如眼神、手势、语音、语调等,一个真诚温暖的目光给予的接纳与理解,这种深层次的共情,AI 还很难实现。
除此之外我们还需要其它的心理咨询技术。比如,一个可疑的强迫性神经症的来访者(可疑的强迫性神经症属于神经症性心理问题,尚未达到强迫症的诊断标准,可以进行心理咨询),除了存在不合理认知以外,可能还存在强迫行为,需要对强迫行为进行暴露治疗,这不是通过共情就可以解决的问题。所以,目前的AI心理咨询可能还仅限于解决比较简单的心理问题,复杂的心理问题(比如神经症性心理问题)、精神疾病等暂时还不能很好地解决。
心理咨询特别是精神分析流派的心理咨询,强调关系的疗愈,来访者如果觉察到咨询师是真正理解到他的内心深处了,就会觉得特别舒服,觉得特别的治愈。但来访者即使感到被 AI 心理咨询师理解,也有可能认为这是机器、是程序、是虚拟的人,而不是生活当中的人。面对生活中的人,他可能还是会恐惧、回避等,他甚至还会沉迷于虚拟世界中难以自拔,更不愿意去面对现实生活中的人。
值得注意的是,不恰当的心理咨询还可能伤害来访者。目前,一些 AI 心理咨询程序中的文本可能是一些心理咨询师提供的,但心理咨询师的流派不同、经验不同,提供的文本也不一定适合每一个场景、每一个人。不同的人对 AI 心理咨询师提出同样的问题时,他的回答可能是相同的,忽略了个体差异。
目前的AI心理咨询可能还很难为来访者提供个性化咨询服务,有可能对来访者造成伤害。那么,收费的AI心理咨询出了问题怎么办?找谁投诉?谁来监管?人类的心理咨询师需要督导师,AI心理咨询师有督导师吗?这是咨询的伦理问题。
目前限于人工智能研究水平的局限,AI 心理咨询可能只能解决简单的心理问题。精神疾病比较复杂,不光涉及咨询,还涉及药物的使用、家庭成员的治疗等。
有时,来访者很难准确表达自己的情绪、认知。AI心理咨询师需要准确识别并作出正确反应。我试用AI心理咨询文本咨询小程序时,感觉回答的拟人化程度较低,缺乏通过一些鼓励、重复的话语提升来访者的交流体验。今后,可以继续提高AI心理咨询的拟人化程度。
目前的AI心理咨询小程序经常给来访者提一些建议。一般来说,做咨询的时候,尽量少给来访者提建议,因为咨询师的建议不一定适合来访者。
相关的AI+心理健康软件还需要得到一些资质的许可证,接受国家的监管。
 Q&A
Q1:基于编码器路线的 MentalBERT 的理解能力较强,基于纯解码器路线的 GPT 类模型则具有较强的对话和生成能力。如何平衡不同技术路线的理解和生成能力,在两方面都达到比较好的效果?
吴梦玥:我们用领域数据微调时,比较了许多模型,发现生成任务的性能存在一定差异,而理解能力的差异并不显著。这可能是由于我们在收集数据时对情绪类别进行了较为精细的标注。理解能力不一定直接影响生成任务,信息存在于嵌入的隐含信息中。
Q2:目前人机对话领域对单次多轮的情绪引导研究较多,但心理疾病比较复杂。而治疗也更有挑战和难度,制定长期多次的个性化对话策略进行治疗,是否值得探索和研究?
蓝振忠:这个方向的研究很有意义。我们有大量的线上文本对话数据,但不能够公开。我们大概有上万个真实的长期咨询,最长的甚至有几十次。如果大家感兴趣的话,可以来跟我们实验室合作。一般来说,我们每次咨询大概是50分钟,全部有文本转录,一般来说,一次咨询能做到把问题描述清楚基本上就结束了,很难做到非常深入的咨询。
Q3:现有的模型结构无法有效模拟人类的这个心理活动,未来如何去让模型实现解释和思考的功能?
蓝振忠: 现在我们在做推理的时候,也可以让模型先思考用户的情绪,之后再做下一轮推理,结果会有提升的空间。如果两侧的成本太高,可以考虑单侧生成,之后生成中间状态。
Q4:大模型的幻觉问题会导致在心理治疗过程中出现一些错误或比较危险的引导,如何解决该问题?
蓝振忠: AI 现在可以做心理辅导,但还没有达到心理咨询的程度,心理咨询是比较严格的概念。有很多线下咨询师可能咨询质量还不如机器。但我们不能因此就降低对机器的要求,只能逐步去提升。我们还可以设置一些预防幻觉的方法,比如检测用户的情绪状态,或引入量表做更多的判别。
吴梦玥: 可以创造一个数据集,诱发模型有更多的幻觉,并逐步消除这些问题。在实际应用的时候,可能还会采取人机共融的方式,有的医生会比较接受这样的状态。实际上,评估长期咨询的质量也许更加重要。
Q5:如果不同精神科医生给出的诊断标准不同该怎么办?
邓晓红: 如今用得较多的诊断标准手册有三套:国际疾病分类第11版(ICD-11),美国诊断与统计手册第5版(DSM-V),中国精神障碍分类与诊断标准第3版(CCMD-3)一般来说,我国的精神科医生主要使用 DSM-5 和 CCMD-3。要明确使用的诊断手册。
Q6:我们在社交网络上发布一些动态时,会有言外之意,也可能会说反话,情绪的表达会比较复杂。如何解决该问题?
吴梦玥: 可以拆解语言中客观的症状信息和你表达时隐含的情绪。
邓晓红:每个人的言语表达与心里想法并不一定一致。在做咨询时,我们对病人或来访者问诊的时候,会通过多条途径去判断某句话到底是什么意思。
更多内容 尽在智源社区
继续阅读
阅读原文