人工智能大数据进入心理学领域
人工智能和大数据时代的到来为心理学的研究打开了全新的大门。人工智能除了在心理实验方面有着无法取代的潜力,在其他方面也会大大拓展心理学的研究领域。随着智能终端的不断发展,移动数据的不断提速,人工智能不仅可以提供心理干预的平台,更有可能成为心理干预的主力。科学的研究方法将心理学从哲学中分离开来,而人工智能和大数据则可能将心理学更深刻地带入生活。
心理学是研究人的行为和心理活动规律的科学,自人类出现,便有了对人类心理和行为的关注。直到 1879 年,构造主义学派创始人冯特在德国莱比锡大学建立第一个心理学实验室,心理学从哲学的襁褓中分离出来,成为一门独立的科学。
心理学通过科学的方法去分析人的行为和心理,主要包括观察法、调查法(问卷法和访谈法)、测验法、实验法等。这些方法很容易受到主试和被试自身期待或动机的影响,而产生虚假或迷惑性的结果,即内部效度可能会受到影响;由于是在一定的时间段内选取有限的、有代表性的研究对象进行研究,然后将结论推广到相同的群体中,这些方法的外部效度和实效性也备受质疑。
目前心理学研究主要以自我报告或者主观观察为主要技术手段,对现实或网络环境中人们的行为和心理进行研究。随着技术的发展,网络环境已不能单纯地看作一种工具,它已经与人类的生存及其环境深度融合,具有与既往传统心理学研究环境完全不同的复杂性与特殊性,同时也为研究提供了新的思路。
人工智能和大数据时代的到来为心理学的研究打开了全新的大门。随着网络及各种智能可穿戴设备的普及,虚拟环境与真实生活不断融合,现实社会中人的各种心理与行为现象能够被电子化记录成大数据保存下来,例如网络访问行为、社会情绪、社会态度、心理健康问题等。研究人员通过用户留下的这些数据对其人格特质或者行为进行预测,Gosling等利用在线社交网站观察到的人格结果对大五人格(big- five)的测量结果与基于Facebook的网络行为自我报告进行了相关分析,结果发现大五人格的不同维度与网络行为显著相关;同时,依赖于现代生活方式,尤其是网络信息传播与人际互动,已经深刻地影响甚至改变了人们的心理与行为特征,产生出一系列亟待解决的全新课题,例如谣言传播、网络煽动群体性事件、网络成瘾等。Zhou 等在研究利用中国社交媒体预测社会事件的发展趋势时发现,群体愤怒情绪会对集体行为产生影响,并且意见领袖、参与者的社会态度以及事件的持续时间都在预测网络社交事件发展趋势中发挥着重要作用。
大数据不仅在研究内容上为心理学家带来了新的课题,更重要的是,大数据与人工智能的结合,使得我们可以利用生态化的行为数据,结合人工智能技术,实现对人们心理指标的自动识别,即生态化识别(ecological recognition),从而大大拓展了心理学研究和应用范畴。Conroy等分析人工智能大数据与政治参与之间的关系发现,利用互联网新媒体可以增加投票率,促进公民参与积极性。此外,有研究者利用用户在网络上留下的数字足迹来对其心理特质进行预测,并尝试针对不同人格的用户推送统一广告的不同类型的广告图,结果显示通过这一方式推送的广告点击率上升了40%。
生态化识别是指一种非接触式的心理特征测量方法,利用机器学习,建立心理指标预测模型,从而实现对受试者的心理指标的自动识别。相比于传统的心理学研究方法,生态化识别具有以下优势:首先,由于数据自身的特点,不同时间粒度的纵向追踪成为可能;其次,可以通过时间回溯,获取重大事件发生前后受试者的心理状态和行为表现及其变化规律,从而对事件的影响进行量化研究,例如利用社交媒体探索家庭暴力对心理健康的影响,通过分析家庭暴力前后不同时间段的心理健康状况了解家庭暴力对心理健康的负面影响;最后,生态化识别不依赖于被试的主观报告,也不依赖于主试的操控,从而可以有效避免实验条件带来的误差,提高了研究结果的内部效度和外部效度。
以下将主要从人格预测模型的建立介绍如何将人工智能大数据应用于心理学研究,然后通过主动自杀干预以及舆情分析介绍在心理学实践中的应用,最后讨论特别需要关注的伦理问题。
01、建立心理指标预测模型——以人格预测为例
人格是构成一个人思想、情感、行为的独特模式。人格一直以来都备受心理学家的关注,逐渐形成了特质理论、类型理论以及整合理论。目前最被接受的大五人格理论,就是特质理论的一个典型代表。大五人格理论认为,人格可以分为5个因子:开放性(openness)、尽责性(conscientiousness)、外倾性(extroversion)、宜人性(agreeableness)和神经质(neuroticism)。
现有的人格结构主要是从现实语境中产生的,在解释网络用户行为过程中常常遇到困难,研究网络人格结构将有助于我们从心理层面识别网络用户身份,深入了解网络用户的行为特征并预测用户的网络行为。中国科学院心理研究所计算网络心理 实 验 室(computational cyber psychology lab,CCPL)对网络人格结构开展相关研究:根据词汇学假设建立微博人格结构;利用机器学习,以期建立一个对网络用户行为心理具有更好描述和预测效果的模型,即建立人格预测模型。
传统的心理学主要采用词汇学的方法,对于自然语言中获得的人格词汇进行分析,得到一组数目有限的特质,用以代表在这一语言背景下的人们的最重要的特点。以新浪微博文本数据为研究材料,开展词汇学研究。选取 100 个新浪微博活跃用户的微博,通过人工标记的方式,得到描述稳定人物特点的术语1945个。经过对这些属于进行删除生僻、长度不宜词汇和合并同义词,获得210个稳定人格形容词,随后对形容词好恶度、熟悉度和意义度进行评定,将形容词化简到63个形容词,并增加具有微博特色的形容词15个,最终得出共78个形容词的词表。通过对106名被试的78个形容词的评定结果进行因素分析,得出了微博人格7因素:
道德善良、独立担当、团结包容、幽默活泼、网络个性、谦虚淡定、自信低调(KMO=0.534)。分别对 7因素与人格5因子进行双向回归分析发现,7因素对大五的解释度(0.3264±0.115)比大五对7因素的解释度(0.2917±0.159)好。
在利用词汇学方法建立微博人格预测模型的基础上,我们利用深度学习建立网络用户行为和心理的向量化表征。考虑用户在微博上一般都能够充分自主地表达自我,通过对微博数据进行深度学习和挖掘,可以直接在微博数据上建立更有效的表征向量,通过对微博数据的多层抽象学习,建立对用户行为和心理特征的计算描述,同时该结构由于完全由数据计算得来,避免了由于用户主观符合度评判带来的偏差,能够实现对大规模人群的快速分析。心理指标的自动识别为进一步研究网络心理提供了基础性研究,能更有效地进行网络用户身份识别、预测用户行为等。
02、在线主动自杀干预
据统计,中国每年有 28.7 万人死于自杀,200万人自杀未遂,因此造成的直接和间接经济、社会、心理损失不可估量,成为一个严重的公共卫生问题。传统的自杀风险评估研究主要采用心理测验、访谈、问卷等分析方法,但从应用效果上说,以上方法具有较大的被动性;往往有自杀企图或倾向的人主动求助率低,而且很难防止他们刻意隐藏内心的真实想法,难以起到及时预警的作用。
不同于传统研究方法的被动性,随着近年来越来越多的社交网络平台给人们更多机会在虚拟集群中吐露自己的感受和观点,通过社交网络能主动寻找有潜在自杀倾向的个体,并对他们产生影响。
在新浪微博用户文本分析基础上,结合用户行为数据分析,我们全面比较了自杀用户和无自杀倾向用户在社交行为、语言使用上的差别,归纳有自杀倾向的用户的可识别模式,建立自杀意念识别模型。该模型的精确率、召回率、F值和准确率分别为 0.88、0.85、0.85 和 0.86,优于之前相同领域内自杀识别的模型的结果。目前,本研究组通过对各种网络媒介内容的实时分析,甄别出其中带有自杀意念的发言,并通过对发言用户的以往行为和内容的分析,更进一步确认该用户的自杀意念后,会向他们提供及时有效的干预,通过微博私信及时推送各地区的自杀干预热线,提供心理健康的一般常识及情绪调节策略。另外,通过志愿者为那些有自杀意念的微博用户提供免费的心理危机干预及转介服务。研究结果表明,通过与志愿者的交流,有自杀意念的微博用户情况得到好转。
这种自动识别并主动预防社交媒体用户,特别是年轻人的自杀干预方法,在世界范围内是一种全新的尝试。结果表明,该方法可用于识别有自杀风险的人群并提供危机管理。高危人群的识别是自动且及时的,干预不仅是主动的,而且效率高且接受度好,是对现有预防自杀方法的有效补充。促进主动自杀危机管理可以提高公众对自杀想法寻求帮助的认识,从而改善公共卫生。该模式还可以缓解像中国这样的大型发展中国家心理服务薄弱、现有自杀预防系统不完善、人口庞大等问题的困境。
03、青岛大虾事件分析
心理预测模型不仅可以适用于人格、心理健康等方面的研究,同样可以适用于社会心理心态的预测。我们利用心理预测模型对2015年10月的一个热点事件——青岛大虾宰客事件(原本 38 元一份的海捕大虾,结账时变成38元一只)进行了分析。
通过新浪微博API (application programming interface,应用程序编程接口)获取了全国100万活跃微博用户在该热点事件期间发布的微博,并采用topic model 文本挖掘技术对相关文本进行了分析。结果表明,事件爆发后2天,网友主要是对该事件本身进行讨论,从第3天开始,网友开始将事件发散,关注点已经不在青岛大虾这一事件本身,而是以“段子”的形式讨论不同地区旅游景点宰客的普遍现象,通过讲述自己的亲身经历或听说的类似事件,表达对景点宰客这一现象的不满。同时,结果表明,网友们对官方发布和回应的内容都高度关注,每次都会引发热议。同时利用心理预测模型,计算了参与青岛大虾事件的用户的社会态度,其中包括生活满意度、收入满意度、社会地位满意度、愤怒情绪、国家政府满意度、地方政府信心、国家经济满意度、地方经济满意度等多个维度。结果表明,与没有参与该话题讨论的微博用户相比,该事件当中的积极传播者大多收入较高,有一定的社会地位,个人生活满意较高同时愤怒情绪也较少;但他们也认为社会发展中还存在一定问题,当前政府的管理工作还有待提高。
通过利用心理预测模型分析此类事件,不仅可以及时获取事件发生变化趋势,了解事件背后大众的心理变化和态度取向,更可以为国家相关机构进行舆情监控提供先行指数(antecedent index),提高相关部门应对危机事件的能力。
04、造福社会与隐私保护的均衡
技术往往都具有两面性,大数据也不例外。一方面,大数据的应用不仅拓展了人类的认知范围,提高了科学家们的研究能力,更为诸如抑郁干预、自杀预防、社会热点事件分析等问题提供了新的解决方案;另一方面,随之而来的隐私保护问题也不容小觑。Facebook 公司最近两年频频卷入非法使用用户数据的丑闻当中,尤其在2018年3月份,还卷入了普朗特选举的政治风波中。人们在享受互联网以及大数据代表的便利之余,也会担心在这个网络时代,自己是否还有隐私可言。因噎废食是绝对不可取的,如何在势不可挡的大数据时代利用好这项技术,是学术界不可忽视的一项重要议题。
目前,学术界关于大数据的使用一般有这样的共识:应当遵守人类被试研究的一般伦理原则,在使用需要用户授权的数据前,必须征得用户的知情同意,并严格按照经由伦理委员会审核批准的程序进行,尤其不能将研究数据用于伦理委员会批准范围之外的目的(如转卖给第三方)。在使用那些开放的无需用户授权的网络数据,在用于科研时也应同时满足以下标准:(1)用户对数据公开是知情的;(2)数据收集后应匿名处理;(3)在公开发表物中不得出现能够识别用户个人身份的信息。
在将大数据应用于心理学研究的过程中,我们严格遵循一般共识:在获取用户个体数据之前,首先会征得用户的知情同意,明确告知用户实验设计以及以后的数据用途;在数据处理过程中,也采用了匿名处理的方式,一方面采用多次加密的方式保护用户原始数据的隐私性,另一方面也很大程度地做好数据的保存与管理,防止数据外泄;在数据发表过程中,杜绝使用任何可识别出用户身份信息的内容。除了以上策略外,我们还专门对典型用户进行了访谈,直接询问他们对隐私以及对实验的看法,之后的实验设计提供了理论指导和实证证据。
合理合规地使用大数据和人工智能技术,是造福社会和保护隐私的重要底线。在看到这种结合对心理学的潜在促进作用的同时,也应该特别关注其带来的隐私方面的潜在危害,通过立法等手段做到防患于未然。
05、结论