1. 引言
风险在自然界和人类生活中无处不在,个体在已知不同选项及其概率的不确定情境中, 权衡不同选项的主观预期价值从而做出决策的过程被称为风险决策(risky decision-making) (Paiva, Rzezak, Santos, Lima, Moschetta, Vincentiis, & Valente, 2019; Poudel, Riedel, Salo, Flannery, Hill-Bowen, Eickhoff, & Sutherland, 2020; 张颖,冯廷勇,2014)。以往更多的研究集中在一般风险决策,任务中个体只需要在每次试验中做出一次性决定,而日常生活中做出的大多数决策都是连续的,并且每采取一次行动,奖励就会增加,这种潜在的奖励是以增加失去某些东西甚至造成更大伤害的风险为代价的,先前的决策和决策结果会影响当前决策,这种结构的行为决策通常被称为连续风险决策(sequential risky decision-making, SRDM) (Haffke & Hübner, 2020)。例如,在玩梭哈扑克时玩家必须在每轮出示新牌后决定是否继续下注、开车穿过繁忙街道时需多次选择是否变道等,这类事件通常无法得知风险的可能结果,也并非仅做一次决策就结束。因此探究个体在连续风险决策任务中的表现非常具有现实意义,便于个体在不同风险情境中做出合理决策(Pleskac & Wershbale, 2014),帮助其识别和减少连续冒险带来的负面行为(如病态赌博、物质滥用、危险性行为等) (Mishra, Lalumiere, & Williams, 2010)。
研究表明,连续风险决策中先前决定的结果反馈会影响后续决定(Xiong, Wang, & Ma, 2023),Gianfranchi,Tagliabue,Megías-Robles和Maldonado (2021)明确了风险条件下反馈加工在决策中的作用,当个体的选择没有得到反馈时,在后续风险决策中更频繁地做出不利决策,倾向于冒险。而由基于单次反馈信息变为基于连续多次反馈信息进行决策后,个体的风险偏好会发生反转,决策者在一次获益后的风险承担程度显著高于一次亏损后的风险承担程度,而连续获益后的风险承担程度显著低于连续亏损后的风险承担程度(Sui, Tan, & Li, 2019; 潘禄,钱秀莹,2014)。Haffke和Hübner (2020)则考察了决策者在连续风险决策任务中的行为是基于单次反馈还是基于连续多次的反馈信息,结果表明两种反馈类型的结合可以最好地描述参与者的决策行为,具体表现为个体的第一次选择时依赖于单次反馈,而随后的选择依赖于联合反馈信息。用于计算建模分析的决策场理论(Decision Field Theory, DFT)同样指出,个体会在决策过程中为各个反馈选项创建瞬间评估,并且对其标准化后形成“价值”数,这些“价值”或单一或随着时间累计而超越决策阈值时,个体才会做出相应决策(Busemeyer & Townsend, 1993; Jessup, 2008)。
那么,个体在必须根据先前决策的反馈信息做出后续决策时,风险偏好受到周期性结果反馈的影响,心理机制发生了怎样的转变?随着对连续风险决策领域的不断深入,学者们已经从参照点适应、强化学习、注意力、情绪等方面探索了其内部过程,因此本文基于对相关文献的梳理,期望阐明个体如何在最终目标达到之前做出连续风险决策,决策不同阶段如何对先前反馈信息进行编码,以及随着连续风险决策的进行不同机制如何随时间变化,并在此基础上提出未来研究方向。
2. 参照点适应模型
前景理论(Kahneman & Tversky, 1979)指出决策者评估结果反馈往往取决于它与参照点的对比,选择参照点是大脑在进行基于价值的神经计算前需要确定的阈值选项(Rangel, Camerer, & Montague, 2008),而参照点由现状、社会规范和期望水平等几个因素决定,并且在连续决策过程中可能随时间变化(Arkes, Hirshleifer, Jiang, & Lim, 2008),即发生“参照点适应”。参照点适应模型扩充了前景理论,解释了在连续风险决策中先前决策结果可能影响参照点的移动以及形成新的参照点,因此连续风险决策中除第一次决策时参照点可能是现状零值,随后的每一次决策参照点都在前一次决策的结果影响下适应变化,甚至可能同时存在多个参照点,那么一个重要的问题就是变化的多种参照点如何影响后续决策偏好。
最初,Kahneman和Tversky (1979)将参照点视为静态单一的,一般指向起点的价值(即现状),价值为零,Arkes,Hirshleifer,Jiang和Lim (2008)发现参照点会随着时间的推移而适应更新,收益后个体向上调整参照点,损失后向下调整参照点,并且收益后的调整幅度往往大于损失后的调整幅度,收益后的适应规模大于损失后的适应规模。因此当结果反馈接踵而至时,后续决策的冒险程度取决于对前一个参照点的适应,基于新参照点判断的损失收益会较之前发生改变,进而影响个体后续的风险偏好。以往研究中除现状参照点外还发现了峰值参照点(Ludvig, Madan, & Spetch, 2014)、最近参照点(Arkes, Hirshleifer, Jiang, & Lim, 2008)、均值参照点(Feng & Seasholes, 2005)和先前预期参照点(Yechiam, Ashby, & Pachur, 2017)等。
Chen和Rao (2002)提出参照点是不稳定的,会随着时间的推移而改变,指出个体决策参照点在出现刺激后,会立即但不完美地发生变化,这意味风险偏好是以最近事件结果为参照点产生的效用,从现状参照点适应为最近参照点,当本次决策结果高于最近参照点时会规避风险,而在低于最近参照水平时会寻求风险。Liu等(2018)采用经过修改的连续冒险任务,同样调查了当前试验与下一次试验之间的风险行为变化,任务要求参与者连续打开一系列盒子,直到他们决定停下来,八个盒子中七个盒子内是金币(收益),一个是魔鬼(损失),打开“魔鬼”盒子会导致参与者失去他们在本轮试验中的全部收益,每一次决策都会呈现本次开箱是否“遇到魔鬼”的反馈信息,结果发现如果参与者在t试验中仅获得很小的收益时,他们往往会在t + 1试验中承担更多风险。Ludvig,Madan和Spetch (2014)则探究了峰值参照点(最大的赢和输)在连续风险决策中的作用,发现个体通常在连续决策中对最高或者最低的极端结果给予过高的权重,通过四个实验证明连续决策先前结果中包含决策环境中极端的结果时,个体更容易将此适应为新的参照点,存在最高收益时比存在最大损失更容易冒险寻求。参照点还可能表现为事前预期,在做出决定之前如果决策者预期选择的结果会导致后悔,那么就可能表现出较少的冒险倾向(Panno, Lauriola, & Pierro, 2015)。
基于价值的决策神经模型认为决策有两个阶段组成,对所有选项“评估”和根据主观价值“选择”最佳选项(Domenech, Redouté, Koechlin, & Dreher, 2018; Kelly, Corbett, & O’Connell, 2021),参照点的选择决定了被评估的选项,个体需要将每一次的结果反馈与被选参照点进行价值评估,再做出最佳选择。在连续风险决策中,以上多种参照点都可以影响冒险行为,大多研究支持个体会将这些参照点适应为单一的复合点选项(Koop & Johnson, 2010),以某一参照点为主影响后续决策,但最近来自动物觅食的证据表明决策主体可以同时使用多个参照点。动物觅食时会同时考虑两个参照点,饥饿阈值和生殖能量阈值(这两个参照点以相反的方向调节冒险行为),当刚刚超过饥饿阈值时,动物为了避免死亡而规避风险,而低于该阈值时,动物为了生存而寻求风险,同样,在繁殖临界点附近,动物可能为了超越这一重要的生物参照点而寻求风险(Koop & Johnson, 2010)。未来可以探索连续风险决策中,同时存在多个参照点时人类个体将如何适应,整合影响机制相反的参照点,将有助于完整解释人类的连续冒险行为。
3. 强化学习模型
从“小赌怡情”到“大赌伤身”,随着时间推移,赌徒在连续的冒险行为中成瘾程度愈来愈深,如果说参照点适应模型为连续风险决策的前期行为表现提供了理论基础,那么强化学习模型就为连续风险决策的后期表现提供了理论依据。Pleskac和Wershbale (2014)使用气球模拟风险任务(BART)研究连续风险决策的反应过程,表明参与者在连续的风险决策任务中形成了两种反应途径,一种是较慢的、有控制的、需要注意的、能力有限的参照点认知加工过程,另一种反应是快速、自动的过程,会随着任务经验的积累而发展,因此较慢的认知评估反应在BART前期更经常发生,然后以越来越快的速度减少,最后变成以快速反应的强化学习模型为主导。Haffke和Hübner (2015)以决策反应时间的变化再次验证了,连续风险决策过程中决策策略的变化。
Ledgerwood和Boydstun (2014)研究发现风险偏好和评估可能不仅取决于当前框架,还取决于过去的框架,在一个连续的风险决策过程中,若先经历损失框架后经历收益框架,个体会对损失框架中风险偏好进行构建与强化学习,使得连续风险决策后期转换为收益框架时,比直接进行收益框架做出的决策更加冒险。同样地,研究者Shapiro,Price,Mitchell和Baron (2020)探究了连续风险决策中领域(收益或损失)转换对个体风险偏好的影响,结果表明领域变化时风险偏好有明显的延续效应(carryover effect),表现为经历收益领域试验后,对随后损失领域试验的风险承担会有所减少,而先经历损失领域试验后,随后的收益领域中风险承担会有所增加。验证了强化学习模型在连续风险决策的后期发挥重要作用,对前期决策偏好的强化学习使得个体形成了习惯行为,逐渐替代参照点适应占据主导地位。
强化学习带来的启发式思考使得后续决策快速、自动化,不再像连续决策前期一样,需要对前一次决策结果的反馈进行参照点适应、价值评估和响应选择三个完整的反应途径,强化学习模型帮助个体在复杂的风险决策环境中进行快速判断。但是,这种习惯性的决策如果走极端,可能会产生有害的后果(Ariely & Norton, 2011)。Barron,Leider和Stack (2008)的研究表明,在连续决策过程中,即使被强烈警告了某些行为的风险,一部分个体依旧会选择冒险,仅仅是因为他们在过去做出了相同决策并从中获益,从而强化学习了这种行为偏好方式并延续到随后的决策中,例如,不使用避孕套、且没有经历过负面后果的个体,可能会习惯性地继续这种危险性行为。
最后,来自强化学习的神经生物学证据表明,冒险行为的重要激活脑区之一——腹侧纹状体(Ventral Striatum, VS) (Del Giacco, Jones, Morales, Kliamovich, & Nagel, 2022),在基于奖励的学习中起着核心作用(Calabro, Montez, Larsen, Laymon, Foran, Hallquist, Price, & Luna, 2023; Taswell, Janssen, Murray, & Averbeck, 2023),表现为VS损伤的猴子在完成任务时不能根据奖励反馈调节自己的表现。而Zhou等(2018)指出行为由自愿到成瘾转变的神经基础是腹侧–背侧纹状体激活控制的转变,背侧纹状体(Dorsal Striatum, DS)与认知和调节过程密切相关,腹侧纹状体(VS)与奖励相关的强化学习功能相关,相比普通对照组,成瘾患者表现出与VS的连接增加,同时与DS的连接激活减少,这些例子都从神经机制层面为连续风险决策中结果反馈作用的强化学习模型提供了证明,表明从“小赌怡情”到“大赌伤身”的连续风险决策中发生了从参照点适应模型到强化学习模型的转变。
4. 注意力模型
与一次性风险选择相比,连续重复的风险决策对认知系统提出了不同的要求,但参照点适应模型和强化学习模型都有一个隐含假设,即个体会保持警惕,注意到每一个决策结果并进行整合储存(Pachur, Schulte-Mecklenbeck, Murphy, & Hertwig, 2018),然而这一关键性假设未得到验证。基于此,Yechiam和Hochman (2013)根据注意理论(Kahneman, 1973)提出了注意力模型,来重点解释连续风险决策中损失结果反馈的影响,当重复做出选择和接收反馈时,与获得相比,个体损失后的觉醒会增加。简单的强化学习考虑了每一次试验的决策反馈,Marshall和Kirkpatrick (2017)研究发现,结果反馈带来的影响并非单一的“损失–转移”“收益–停留”,而是通过注意力分布的不同权重决定强化学习的相对概率,因此注意力模型解释了连续风险决策过程中从参照点适应模型到强化学习转变的条件和原因(Jessup, 2008)。
注意力模型主要为连续风险决策中损失或收益不同效价结果反馈的影响提供了理论依据,指出损失反馈通常比收益带来的效应强、持续久,与损失有关的信息比有关收益事件的信息得到更彻底的处理,表现为,对损失信息有更多的关注和更彻底地阐述或构建更广泛的认知解释(如归因) (Krajbich, 2019; Mrkva, Johnson, Gächter, & Herrmann, 2019)。当连续风险决策中框架发生转换时,损失框架比收益框架在塑造人的思维能力方面更具有粘性,表现为损失框架下的风险偏好并没有因先前对收益框架的学习而有所不同,而收益框架下的风险偏好会因为连续风险决策中先前损失框架的学习而增强(Ledgerwood & Boydstun, 2014)。Shapiro,Price,Mitchell和Baron (2020)让参与者完成一项连续风险决策任务,在固定收益和风险选项之间反复做出决定,结果表明参与者在收益领域中的风险倾向低于在损失领域中的风险倾向,且先经历损失的影响比先经历收益的影响更强,验证了注意力模型中,经历一系列的损失试验会引起更多的注意力、更容易将冒险行为延续下去的观点。
近来,随着研究的深入,学者们试图探究是否可以通过操控注意力来改变连续风险决策后续的行为表现。Liu,Cheng,Liu,Zhang和Guo (2020)通过控制个体在连续风险决策中对前一次结果反馈的注意焦点以探究注意力在其中的作用,采用改编的连续开箱任务这一连续风险决策任务,考察关注收益反馈结果(相比于关注损失反馈结果)是否能够在行为和神经水平上抑制随后的后悔情绪,结果与预测一致,注意力专注于收益反馈后,参与者减少冒险得到更好的结果从而感到更少的后悔,提示了短期注意力训练确实对连续风险决策的风险偏好和后悔情绪具有后续效应。
5. 多维情绪模型
神经科学理论认为冒险是两个神经系统之间竞争的结果,一个是认知控制系统,另一个则是情感系统(Figner, Mackinlay, Wilkening, & Weber, 2009),情绪作为参照点适应、强化学习、注意力模型等之外的非认知因素广泛地、有效地影响着个体的决策,情绪会随着与环境互动的反馈而缓慢波动,随着连续风险决策的进行,表现为不同时间维度的情绪综合影响着决策的全过程(Bennett, Davidson, & Niv, 2022),并与认知系统共同对后续风险决策产生影响(Skagerlund, Forsblad, Slovic, & Västfjäll, 2020)。
研究者们根据时间维度将情绪划分为决策前情绪、决策中情绪和决策后情绪,连续风险决策过程中的每一时间点几乎都存在三种来源的情绪,前一次决策的决策后情绪成为后续决策的决策前情绪,逐渐形成一个循环,延续与变化的情绪对连续冒险的偏好产生影响,多种维度的情绪综合影响后续决策(Marini, 2022)。
决策前情绪通常指与决策任务无关的偶然附带情绪,不会持续很长时间,因此这类情绪主要影响连续风险决策的前几次序列,影响方式同样表现为积极和消极的附带情绪分别引发风险寻求和风险规避,以及相同效价的偶然情绪对风险决策的影响也存在差异(Mailliez, Bollon, Graton, & Hot, 2020)。Colasante, Marini和Russo (2017)探究音乐刺激引起的偶然情绪对连续冒险行为的影响,结果显示诱发了积极和消极情绪的被试都比诱发了中性情绪的被试更厌恶风险,但这一结果只在连续风险决策的第一次任务中具有统计学意义,随后第二次任务则消失了,这意味着决策前的偶然情绪对连续风险决策的影响会随着时间的流逝而消失。
决策中情绪是决策过程中由决策情境所激发的情绪体验,一般是个体预计可能但尚未发生的决策结果时产生的预期情绪,不同的预期情绪反映出不同的风险表征(Zhang & Shou, 2022),在连续风险决策中会和延续至此的决策前情绪综合产生影响。Zhang和Shou (2022)考察连续风险决策中附带情绪和预期情绪的相互作用,发现焦虑与积极预期情绪负相关,与消极预期情绪正相关,特质焦虑可以通过调节预期情绪对冒险倾向的影响来改变冒险行为,但是不同领域的风险可能会引发不同的情绪范围,似乎预期情绪在决策过程中的作用比偶然情绪更显著。
决策后情绪不止表现为简单的积极结果使人欣慰开心,消极决策结果使人难过遗憾,还有由意识或想象到“如果之前选择不一样那么现在的情况会变得更好”的反事实思维引起的后悔情绪(Herweg & Müller, 2021),这也是连续风险决策中最重要的情绪维度。以往研究显示,后悔情绪会使后续风险决策倾向于冒险(Lin, Liang, Yang, & Wu, 2021)。决策后情绪会成为下一次决策的决策前情绪,同决策中情绪的预期情绪综合影响后续风险决策,预期后悔情绪在一定程度上可以调节后悔情绪及后续冒险行为,Kumano,Hamilton和Bahrami (2021)研究了个体在为他人做决定或被他人观察时如何处理连续风险任务,结果表明被伴侣观察会增强反事实思维,促进预期后悔情绪,从而导致后续更保守、防御性的选择,若决策结果仍不满就会加剧后悔情绪,更加偏好风险规避。
研究发现在连续风险决策中,不同时间维度情绪的影响结论可能相互矛盾,如后悔情绪导致决策者可能既厌恶风险又追求风险(Somasundaram & Diecidue, 2017),预期后悔情绪也会导致个体做出更规避风险的选择(Kumano, Hamilton, & Bahrami, 2021),当连续风险决策过程中某时间点同时出现多种维度的情绪时,他们会综合发生影响。此外,个性特质可能发挥了重要调节作用,不同特质个体倾向于关注同时存在的多维情绪的不同情绪(Gabillon, 2020),Panno,Lauriola和Pierro (2015)考察决策者的监管模式(Regulatory Mode)如何影响做出冒险选择之前的预期后悔以及后续冒险决策,结果表明评估取向(监管模式之一)的个体会为了减少风险而更关注预期后悔情绪,减少冒险行为,而运动取向(监管模式之一)的个体在进行连续风险任务时会被更强烈的决策后情绪唤醒,减少关注决策中预期后悔,从而承担更大的风险。其他个性特质是否与多维情绪同时存在时的关注点直接相关,或者多种时间维度的情绪综合影响连续风险决策时是否受其调节,是未来研究的一个重要且有用的问题。
不同时间维度的情绪除单独以及综合影响后续决策外,还作为非理性因素与认知系统相互作用共同影响后续风险决策(Gerrard, Gibbons, Houlihan, Stock, & Pomery, 2008; Skagerlund, Forsblad, Slovic, & Västfjäll, 2020)。通常个体接受结果反馈信息后存在两条加工途径,认知反馈途径和情绪反馈途径,认知反馈途径指接受反馈信息后,由逻辑驱动的参照点适应、价值评估和响应选择等过程,情绪反馈途径则指对结果反馈的瞬间和直觉反应,由先前对反馈标记的情感印象驱动(Brand, Labudda, & Markowitsch, 2006)。Skagerlund,Forsblad,Slovic和Västfjäll (2020)探索了使用情绪反馈途径的倾向与个人认知能力之间的潜在关系,发现个体在风险决策过程中是否依赖于情绪反馈途径可能取决于认知能力,较差的认知能力削弱了在风险决策中忽视情感启发带来直觉反应的能力,更可能依赖于情感反馈途径,卓越的认知能力则会在决策环境中识别情感反应、超越直觉,转而更依赖认知反馈途径。Liu等(2022)采用脑电图(EEG)和脑磁图(MEG)进一步在时间上分离认知反馈过程中的“价值评估”和“选择”阶段(Rangel, Camerer, & Montague, 2008),揭示了情绪只影响风险决策的“选择”阶段,而不影响“价值评估”阶段,验证了情绪与认知共同对风险决策的影响,未来可以探究连续风险决策的不同时间阶段,情绪对认知的影响是否都只存在于“选择”阶段,为连续风险决策过程中结果反馈影响机制的变化提供证据。
6. 研究展望
连续风险决策是一个系列过程,包含了接收、学习、搜索和探索以及注意力等过程,其中还伴随着情绪的影响,有必要研究多条机制路径是如何在连续风险决策上发展的。以往研究集中于某一种机制模型对于连续风险决策的解释,未来研究仍然需要解决一些关键问题,尤其是:四种机制模型之间的竞争与结合、决策领域发生转换时结果反馈如何由不同模型发挥作用、时间因素在连续风险决策中的影响、内在神经机制如何为理论提供证据等方向。
6.1. 四种机制模型的竞争与结合
连续风险决策过程中,参照点适应模型清晰解释了个体在接收到先前结果反馈后的完整反应活动,并且随着时间推移将结果反馈与不同参照点进行比较,在此基础上个体在后期会快速学习、自动反应,使得强化学习模型阶段性发挥主导作用,注意力模型则侧重于解释结果反馈的不同效价对后续的影响,多维情绪模型作为一种认知之外的框架补充了连续风险决策中每一阶段情绪影响的叠加与循环。
未来研究的一个重要问题是多种机制模型在连续风险决策中如何结合和竞争,结合即意味着他们在作用于后续决策时是整合后共同作用。例如,针对个体在青春期和成年早期达到一生中冒险水平顶峰的结论,Figner,Mackinlay,Wilkening和Weber (2009)提出不仅仅是由青少年认知特征引起的,而是取决于情绪模型和认知加工模型之间的平衡,只有在情绪模型被充分触发且不成熟的认知加工模型尚不能克服强烈的情感冲动时,青少年在连续风险决策任务——哥伦比亚卡任务(Columbia Card Task, CCT)中会发生冲动冒险行为,而在缺乏情绪模型参与的情况下,青少年和成年人之间的风险偏好没有年龄差异。Liu等(2022)通过分离决策过程中基于价值神经计算的大脑活动与随后选择过程的大脑活动,确定了情绪只参与了选择相关的大脑活动,并非参与整个认知反馈过程。Shapiro等人(2020)在研究连续风险决策中风险倾向的延续时也表明,情绪模型或注意力模型都不能为其结果提供唯一完整的解释,两者都有助于解释结果中的特定部分。因此,几种模型整合起来更好地为连续风险决策领域提供支持是潜在发展趋势。
四种机制模型竞争则意味着其相互独立,在连续风险决策的某一阶段,特定的机制模型发挥相对主导作用。以往研究的一个普遍观点是,青春期和成年早期是一个冲动和追求风险的时期,而随着年龄的增长,一个人会变得更加厌恶风险,老年期是谨慎决策和规避风险的顶峰(Yang, Liu, Liu, Li, Zheng, & Guo, 2019; Tannou, Magnin, Comte, Aubry, & Joubert, 2021),Figner等(2009)研究证明只有当情绪模型集中参与时,青少年才会表现出更多的冒险行为,而在仅有认知加工模型参与的条件下做出的冒险决定时,各年龄阶段被试的风险偏好没有显着差异,那么年龄是否会成为影响各种机制模型解释力的重要因素。Franken,Georgieva和Muris (2006)探究先前的得失对后续风险决策的影响,考察参照点的改变对风险偏好变化的作用,结果表明参照点的操纵影响了后续决策的风险偏好,并且分析排除了参照点对后续行为决策的影响不是由积极或消极的影响介导的。未来研究可以通过此方法,探究整个生命周期中,不同年龄个体在进行连续风险决策时分别由哪种模型解释或者由哪几种模型交互占据主导作用。
6.2. 连续风险决策领域的转换与扩展
现有的连续风险决策研究仅在单一领域探究过程中的偏好变化,未来研究可以拓展到不同领域,探索连续决策中风险领域发生转换时的心理机制。首先,连续风险决策本质上属于经验决策,但并非所有经验都具有同等重要性,前人研究发现类似任务更多地影响后续决策(Merkle, Müller-Dethard, & Weber, 2020),Buckenmaier和Dimant (2021)的研究结果强调了先前经验与后续决策之间相似性的重要性,表明结果之间的相似性决定了它们是被视为相同认知过程的一部分还是被记为不同的认知过程。然而不同风险情境中的风险偏好是特定的,高风险情境中的决策行为一般比低风险情境更保守,人们可能在一个领域(例如健康领域)寻求风险,而在另一个领域(例如社会或金融领域)回避风险(Sekścińska, Rudzinska-Wojciechowska, & Maison, 2018)。未来研究或许能不局限于同一领域连续风险决策的偏好,探索同一连续过程中,风险情境高低发生变化的情况,以及风险领域发生转换时前一次结果反馈对后续决策的影响机制,前后决策领域之间相关性如何在其中发挥作用。
其次,相关文献表明除了先前结果反馈的效价之外,经验的相对趋势也可能发挥作用(Buckenmaier & Dimant, 2021),这启示未来研究可以从连续风险决策形成的偏好延续性入手,深入考察连续风险决策结果反馈机制的领域扩展延续性。Schwerter和Zimmermann (2020)检查了结果反馈形成的经验对信任领域的影响,采取了带有风险元素(例如信任博弈或公共物品博弈决策)的决策情景,验证了决策中先前的经验可以作为信任意愿领域的驱动因素。那么连续风险决策中形成的行为偏好趋势,是否会影响随后其他领域的行为,包括利他主义、合作、拖延、抑郁等,前文所述的作用机制将发挥怎样的作用,这一研究问题仍然需要未来研究展开更多及更深入的探索。
6.3. 时间因素在连续风险决策中的影响
未来可以深入研究连续风险决策中时间间隔对行为偏好的影响。连续风险决策中从前一个决策到下一个决策的时间间隔,甚至每次决策的时间以及决策结束后结果反馈的呈现时间,都存在可以影响后续决策的特质(Buckenmaier & Dimant, 2021; Zhai, Lv, Zhao, Wang, & Leung, 2022)。研究发现较短的时间间隔可能会增加人们对风险的敏感性,较长的时间间隔可能会减弱人们对风险的意识(Pine, Seymour, Roiser, Bossaerts, Friston, & Curran, 2009),同时一定时间间隔后的风险行为可能被视为“新一轮”决策,而不是一系列连续冒险行为的一部分(Haffke & Hübner, 2020),那么改变连续风险决策中决策时间间隔是否会对后续风险偏好产生影响。以及,每次决策时间间隔固定相同(例如疾病复查治疗选择)与时间间隔长短随机(例如抛售股票)是否会引起个体不同的信息获取与分析加工模式,从而导致后续风险决策的偏好发生变化。
关于时间因素在连续风险决策这一领域的影响还需要关注的是,先前结果反馈会在多长时间内产生作用,不同机制模型的影响时间可以延续时间为多久。Colasante,Marini和Russo (2017)仅验证了偶然情绪对连续风险决策的影响会随着时间的流逝而消失,影响第一次任务而不影响后续决策任务。未来研究可以探讨其他机制对后续风险决策的影响时间会持续多久,例如强化学习模型(Pleskac & Wershbale, 2014)表明个体在习惯先前的决策方式时会由参照点适应加工转变为快速反应的强化学习,倾向于维持当前的决策模式而形成现状偏差(Status Quo Bias),那么这样的现状偏差会延续多久。而注意力模型中,前人实验发现,对注意力的操控可以改变连续风险决策后续的倾向(Liu, Cheng, Liu, Zhang, & Guo, 2020),那么在连续决策的间隔时间内加入一项分散注意力的任务是否也会对连续风险决策的偏好有后续效应,进一步检测反馈作用机制的延续时间。
6.4. 连续风险决策的内在神经机制
连续风险决策过程中行为偏好会发生变化,从认知神经科学角度或许可以深入解释连续风险决策不同机制模型的发展以及内部权重问题。ERP相关研究表明由周期性反馈引起的P1和P3分量的振幅越大,表明参与者在下一步冒险的可能性越大(Gu, Zhang, Luo, Wang, & Broster, 2018),同时P3a成分反映了对于外部环境变化中新奇或突发刺激的自动注意(Polich, 2007),新奇刺激表现在连续风险决策中的或许就是出现的极端结果反馈值、最新结果反馈值等,那么是否可以通过P3a成分的变化探究参照点适应模型中参照点何时会发生更新。而P3b成分可以反映对任务相关刺激的意识加工和记忆编码(Polich, 2007),符合连续风险决策后期以快速反应的强化学习模型为主导,P3b成分的出现与消失是否能够预测连续风险决策中结果反馈机制由参照点适应模型向强化学习模型的转换发展,有待进一步探究。
不同特质个体在面临不同连续风险决策场景时,可能依据的机制模型有所不同,功能磁共振成像(fMRI)相关研究显示,腹侧纹状体参与后悔情绪的加工,个体连续决策时后悔程度越弱,腹侧纹状体(VS)激活越强(Brassen, Gamer, Peters, Gluth, & Buchel, 2012),同时腹侧纹状体会影响背侧前扣带皮层(dACC)的活动,在基于奖励的强化学习机制中起着核心作用(Taswell, Janssen, Murray, & Averbeck, 2023),未来研究通过同时结合脑电EEG与功能性磁共振成像fMRI,比较不同时间点各个脑区激活的差异,了解各机制模型分别的哪种情况下更具有解释性,通过多模态功能神经成像深入考察连续风险决策的参照点适应、强化学习、注意、情绪等多种机制的作用权重及彼此间的链接。
综上所述,在连续风险决策过程中,个体风险偏好会受到先前结果反馈的影响发生变化而非稳定不变,本文小结了其作用机制,包括参照点适应模型、强化学习模型、注意力模型、多维情绪模型,探讨了现有研究的不足之处,并为未来研究提供了方向,这可能对个体环境适应具有进化价值。