警觉度,作为一种反映人类能够维持较长时间的注意力,并对该段时间内发生的小概率事件保持警惕的能力[1-2]。特别是随着科学技术的进步,操作员在驾驶过程中承担的任务逐渐发生改变,从飞机的操控任务变为机器的监控任务[3]。随着时间的推移,操作员的大脑认知负荷上升,会对判断能力、注意力造成不利影响,从而对飞行器等的安全造成潜在的影响。基于此,警觉度的研究受到越来越多的关注。
针对该问题,大量学者对人类的认知负荷评价方法进行了探索性研究:主要包括:主观评价方法(如NASA-task load index)[4]和客观评价方法(基于生理参数的评价方法[5]、基于生物反应的评价方法[6])。主观评价方法是对人类主观感受的直接描述,但实验结果无法动态标注认知负荷的变化。基于生理参数(如脑电、心电和呼吸等)的评价方法需要附加的设备对生理信号进行采集,增加实验复杂度。
使用基于生物反应的评价方法具有简易性,并且能够实时实现对被试状态的监控。研究表明警觉度实验中视觉注意力的响应时间和大脑特定区域(前额叶、顶叶控制区、视觉皮层、扣带回和丘脑等)的神经活动的变化相关[7]。美国霍普金斯大学医学院的Catherine M.Davis等人的研究发现,生物反应特征(响应时间(response time, TR)、响应遗漏(lapse)等)可以有效反映出警觉度的变化[8]。爱尔兰国立都柏林大学的Whelan等人通过对响应时间的变换,进一步降低异常点响应对度量准则的影响[9]。
然而,到目前为止,并没有文章对基于生物反应的警觉度的灵敏度进行系统性的对比分析,这对于判定这些准则对认知功能的影响与否具有重要的参考价值。因此,本文从不同的角度对不同准则的灵敏度进行对比和分析。
1 警觉度分析的行为学准则警觉度度量准则主要分为2类:响应时间相关和错误响应相关。不同的任务阶段,响应时间和错误响应的分布具有显著性的不同。对于响应时间而言,如果值小于100 ms时,认为被试按键响应是无效的,即错误开始[8],反之,则可以用于进一步的分析。错误响应指在下一次刺激到来时,被试没有对刺激做出正确的响应。除此之外,遗漏(lapse)和错误响应定义为错误(error)。基于这些概念,本文的警觉度度量准则如下所述:①得分指标;②平均响应时间;③Q-10(响应时间前10%的平均值);④Q-50(中值响应时间);⑤Q-90(响应时间后10%的平均值);⑥遗漏概率(lapse probability);⑦错误开始;⑧平均响应速率;⑨似然比例准则(likelihood ratio metric, LRM)[10]。具体计算方法如下:
1) 得分指标:随着警觉度的变化,该指标对被试神经行为缺失的灵敏度测量。计算方法见公式(1):
(1) |
2) 平均响应时间:该指标直接反映了被试对刺激的灵敏程度。
(2) |
式中,TRi表示第i次刺激的响应时间。
3) Q-10:根据被试的警觉度水平, Q-10, 即排列在前10%区间的响应时间的平均值, 反映了被试的正常状态或者警醒状态。如果被试的警觉度水平较高, 则Q-10保持不变或者变化很小。
(3) |
式中,Iround()表示四舍五入取整;Isort()表示对序列升序排列。
4) Q-50:相比于平均响应时间, 该指标会自动屏蔽极值点, 使得计算在一定程度上更加可靠。
(4) |
5) Q-90:根据被试的警觉度水平变化, 如果被试不能集中注意力, 相比于正常的TR, 会显著增加, 该指标更能反映被试的警觉度水平较低的程度。
(5) |
6) 遗漏概率:该指标表示遗漏响应次数在有效响应中所占的比例。
(6) |
7) 错误开始:错误开始指的是相比于刺激的超前响应。该指标会随着警觉度的下降而增加。
(7) |
8) 平均响应速率:平均响应速率是最先发现反应被试状态灵敏度的度量准则。该准则在突出慢反应速率方面, 是最优化的响应准则, 它受到较长响应时间的影响更小。
(8) |
9) LRM:LRM是基于被试响应时间的相对频率分布的规律计算而来的。该准则可以通过如下公式计算:
(9) |
此处, tmin表示有效时间范围的最小值, tmax表示有效时间范围的最大值。
这些准则在被试警觉度水平差异的对比性研究中受到很多的重视。但是如何确定这些方法的有效性, 就成为了一个更加重要的问题。本文从计算不同任务的统计显著性的角度出发, 利用效应量对各个度量准则进行对比分析。
2 实验方法及评价 2.1 实验流程本实验总共有6名年龄在22~27岁之间的研究生(其中4男2女)作为实验对象, 要求被试具有午休习惯, 右利手。本实验要求所有被试在实验前一天保持正常作息, 并提前对被试进行实验培训, 熟悉实验流程。整个实验流程持续2 h, 并分为2个时间段分别完成:10:00—11:00和14:00—15:00。整个实验共包括4个模块, 具体流程见图 1。
本文实验采用仿真的飞行器状态判别任务。具体的刺激图如下:首先将圆环均分为4份, 然后在各个部分放置一个飞行器。每一个飞行器的飞行姿态是随机的(顺时针或逆时针)。在安全情况下, 所有飞行器的姿态同为顺时针或同为逆时针; 否则, 飞行状态判断为相撞。
精神运动警觉性任务(psychomotor vigilance task, PVT):单次PVT任务持续时间约为10 min, 该任务要求被试对电脑屏幕中间出现的飞机状态进行反应, 当飞机出现相撞的情况, 被试按“1”键, 否则按“2”键。被试按键结束之后, 屏幕刺激消失; 如果被试在刺激呈现时没有反应, 则刺激持续1s后消失。刺激消失后会出现随机的时间间隔(1~9 s)。为了保证实验开始时, 被试状态尽可能一致。对被是进行一个任务段的训练, 然后利用Quest方法对刺激呈现时间进行进一步优化, 以此确保被试在实验开始阶段的表现状态尽可能一致。
1) 间歇性PVT任务:2个实验周期间, 选择让被试进行一定时间的休息, 实验时间选择早上10:00—11:00;
2) 持续性PVT任务:2个实验周期间, 被试不需要休息直接进行下一个周期进行连续性的实验工作, 实验选择时间为下午13:00—14:00。
2.2 性能评价模型为了对以上提及的不同警觉度状态的评价准则进行分析, 选择结合两评价模型:①效应量; ②显著性分析。效应量是一种基于t检验的分析方法, 利用效应量的分析, 可以辅助判别显著性分析差异性是否真的有意义。而效应量可以分为3个等级:小效应(η2>0.01且η2 < 0.06);中等效应(η2>=0.06且η2 < 0.15);大效应(η2>0.15)。具体标准如表 1所示:
效应量 | 显著性分析 | 可信度 |
小效应 | p < = 0.05 p > 0.05 |
可靠性低, 推广需谨慎 研究价值不高, 考虑放弃 |
中等效应 | p < = 0.05 p >0.05 |
结论可信度较高, 谨慎接受 可靠性较低, 继续分析 |
大效应 | p < = 0.05 p > 0.05 |
结论可信度高, 可接受 建议增加样本, 继续分析 |
从图 3b)可以看到, 随着实验的进行, 被试脑力负荷也逐渐增加, 精神负荷增加, 导致响应时间呈现缓慢上升的趋势。由于持续性任务中被试没有午休, 被试的精神状态较为萎靡, 间歇性任务第一个PVT任务的响应时间小于持续性任务, 这与中国人的生活习惯相一致。从表 2的分析, NASA-TLX的得分在连续性任务较高, 即为警觉度较低, 这与图 3的结论具有一致性, 即被试的响应时间呈现明显上升。由此可知, 长时间的连续工作或者缺乏休息可能会诱发心理疲劳, 受到该因素的影响, 被试在PVT任务上的绩效发生相应变化。结果分析表明, 警觉度状态的变化, 使得被试在任务的绩效水平降低, 而在NASA-TLX量表上则表现为疲劳度增加。
任务 | 心智需求 (指数/权重) |
体力需求 (指数/权重) |
时间需求 (指数/权重) |
绩效 (指数/权重) |
精力 (指数/权重) |
挫折感 (指数/权重) |
加权平均 |
连续性 | 80/2 | 85/1 | 80/1 | 85/4 | 90/2 | 85/2 | 84.58 |
间歇性 | 60/1 | 70/5 | 65/0 | 65/2 | 85/4 | 80/3 | 74.67 |
表 3和图 4给出了不同警觉度条件下, 前1分钟到前10分钟9种度量准则的变化情况。根据结果分析, 相比于间歇性任务, 持续性任务在6种度量准则(错误开始、遗漏概率、平均响应时间、Q-50、Q-10以及Q-90)显著增加。与此相反, 响应速度和性能得分却越来越小。通过数据分析可知:在有效的响应时间范围内, 响应越快, 错误率越低。和响应时间相关的度量准则(除了响应速度)中, 持续性任务得分呈现逐渐下降的趋势。与遗漏或错误响应相关的度量准则却会逐渐增加。从整体分析, 随着实验的进行, 2种任务下脑力负荷强度逐渐变大, 被试的响应时间和错误开始相关的准则呈现明显增加趋势, 但间歇性任务的变化幅度小于连续性任务, 这与前文所述的NASA-TLX所得的结果相吻合。结果表明不同的度量准则可以在一定程度上用来估计被试警觉度水平, 但是不同任务难度下区分效果并不是特别明显, 特别的, 平均响应时间、Q-50和响应速率等参数均没有发现明显的差异。图 4a)中空心表示错误开始,实心表示得分指标;图 4b)中空心表示LRM,实心表示遗漏概率。
参数 | 任务 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
平均速率 | 连续性 | 1.337 | 1.298 | 1.329 | 1.365 | 1.344 | 1.322 | 1.322 | 1.312 | 1.303 | 1.302 |
间歇性 | 2.582 | 2.511 | 2.403 | 2.279 | 2.175 | 2.127 | 2.098 | 2.055 | 2.025 | 1.986 | |
平均响 应时间 |
连续性 | 0.774 | 0.794 | 0.779 | 0.758 | 0.768 | 0.779 | 0.778 | 0.782 | 0.787 | 0.788 |
间歇性 | 0.413 | 0.418 | 0.444 | 0.465 | 0.488 | 0.496 | 0.500 | 0.511 | 0.518 | 0.528 | |
Q-10 | 连续性 | 0.546 | 0.546 | 0.557 | 0.550 | 0.554 | 0.559 | 0.562 | 0.565 | 0.565 | 0.569 |
间歇性 | 0.274 | 0.277 | 0.280 | 0.288 | 0.296 | 0.302 | 0.308 | 0.314 | 0.320 | 0.326 | |
Q-50 | 连续性 | 0.731 | 0.765 | 0.799 | 0.752 | 0.778 | 0.803 | 0.801 | 0.799 | 0.802 | 0.803 |
间歇性 | 0.383 | 0.392 | 0.446 | 0.466 | 0.517 | 0.520 | 0.519 | 0.521 | 0.529 | 0.544 | |
Q-90 | 连续性 | 0.97 | 0.97 | 0.968 | 0.964 | 0.962 | 0.960 | 0.963 | 0.963 | 0.963 | 0.962 |
间歇性 | 0.617 | 0.600 | 0.626 | 0.622 | 0.668 | 0.668 | 0.665 | 0.693 | 0.698 | 0.726 |
为了验证各种度量准则在2种PVT实验下的影响, 表 4和图 5表示对2种PVT任务下9种度量准则效应量和显著性分析结果。考虑到实验初始阶段, 被试的状态相差不大, 对于遗漏(遗漏概率和错误开始)和得分标准而言, 在2种条件下没有显著性差异, 随着时间的变化, 被试的脑力负荷呈现出差异越来越大的趋势, 这2种条件下的度量准则具有显著性的差异和有效的效应量。同样, 对于响应时间(平均响应时间, Q-50, 响应速度和Q-10)相关的度量准则, 在2种PVT任务下具有显著性的变化。随着警觉度状态的变化, 二者的差异性的显著性呈现增加的趋势。
参数 | 任务 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
得分指标 | 效应量 | 0.01 | 0.226 | 0.375 | 0.651 | 0.74 | 0.785 | 0.8 | 0.789 | 0.737 | 0.692 |
显著性 | 0.87 | 0.419 | 0.099 | 0.272 | 0.061 | 0.045 | 0.041 | 0.044 | 0.062 | 0.081 | |
平均响 应时间 |
效应量 | 0.994 | 0.977 | 0.963 | 0.951 | 0.93 | 0.952 | 0.968 | 0.956 | 0.937 | 0.931 |
显著性 | 0 | 0.001 | 0.005 | 0.003 | 0.008 | 0.005 | 0.002 | 0.004 | 0.007 | 0.008 | |
Q-10 | 效应量 | 0.987 | 0.982 | 0.975 | 0.971 | 0.903 | 0.905 | 0.958 | 0.962 | 0.966 | 0.967 |
显著性 | 0.001 | 0.001 | 0.002 | 0.002 | 0.013 | 0.013 | 0.004 | 0.003 | 0.003 | 0.003 | |
Q-50 | 效应量 | 0.978 | 0.971 | 0.955 | 0.938 | 0.919 | 0.929 | 0.937 | 0.923 | 0.887 | 0.866 |
显著性 | 0.001 | 0.002 | 0.007 | 0.004 | 0.01 | 0.008 | 0.007 | 0.009 | 0.017 | 0.022 | |
Q-0 | 效应量 | 0.899 | 0.991 | 0.997 | 0.985 | 0.986 | 0.995 | 0.994 | 0.989 | 0.982 | 0.974 |
0.002 | 显著性 | 0.014 | 0 | 0.001 | 0 | 0.001 | 0 | 0 | 0 | 0.001 |
不同度量准则和正确率(ACC)的相关性分析如表 5所示。通过对生理学信号分析表明, 文中所描述的9种警觉度度量准则与无人机操作员的认知负荷或精神状态具有较高的关联性, 可作为评价操作员的认知负荷的有效指标。
度量准则 | 任务 | 拟合方程 | 相关系数 | P |
错误开始 | 连续性PVT 间歇性PVT |
126.253*ACC-63.224 1 |
0.815 \ |
< 0.05 \ |
遗漏概率 | 连续性PVT 间歇性PVT |
-0.340*ACC+0.414 -0.490*ACC+0.474 |
-0.741 -0.940 |
0.057 < 0.05 |
LRM | 连续性PVT 间歇性PVT |
1.783*ACC-154.171 424.601*ACC-480.968 |
-0.535 0.840 |
0.216 < 0.05 |
得分指标 | 连续性PVT 间歇性PVT |
0.340*ACC+0.586 0.490*ACC+0.526 |
0.741 0.940 |
0.057 < 0.05 |
平均响应时间 | 连续性PVT 间歇性PVT |
0.318*ACC+0.582 0.754*ACC-0.206 |
0.814 0.976 |
< 0.05 < 0.05 |
Q-50 | 连续性PVT 间歇性PVT |
0.488*ACC+0.491 1.069*ACC-0.487 |
0.688 0.970 |
0.087 < 0.05 |
Q-10 | 连续性PVT 间歇性PVT |
0.224*ACC+0.423 0.319*ACC+0.009 |
0.908 0.929 |
< 0.05 < 0.05 |
Q-90 | 连续性PVT 间歇性PVT |
0.013*ACC+0.954 0.662*ACC+0.057 |
0.274 0.862 |
0.552 < 0.05 |
响应速度 | 连续性PVT 间歇性PVT |
-0.693*ACC+1.750 -3.898*ACC+5.763 |
-0.829 -0.987 |
< 0.05 < 0.05 |
遗漏相关(遗漏概率, 错误开始, 和LRM)和得分指标等度量准则和ACC进行相关性分析。由图可知, 间歇性PVT任务的遗漏概率、LRM以及绩效的相关r值分别为-0.940(p < 0.05), 0.840(p < 0.05)和0.940(p < 0.05)。在连续性PVT任务中, 这些度量准则和ACC具有较小相关性, 相关值分别为-0.741(p=0.057), -0.535(p=0.216)和0.741(p=0.057)。有趣的是, 连续性PVT任务的脑力负荷比较大, 错误开始和ACC的相关性r值具有显著相关性: r=0.815, p < 0.05。并且错误开始在间歇性任务中具有较高的稳定性。
和响应相关的度量准则(平均响应时间; Q-50;Q-10;Q-90;和响应速度)和ACC的相关性分析如表 5所示。表中具体给出了回归系数(r值)和p值。由表 5可以得出:在间歇性任务中, 平均响应时间的相关性比连续性任务的相关性高(0.976>0.814);相比于间歇性任务, 连续性任务的相关性在Q-50, Q-90和速度相关的度量准则明显较差, 而Q-10的相关性在2种条件下表现较为良好。根据这些分析可知:均值响应时间、Q-50以及速度等在被试状态较好的基础上采用, 效果更好; 而Q-10在2种情况下相差不大。
4 结论针对关于警觉度的行为学的研究较为分散,本文从t检验和效应量的角度,系统性的对比了不同度量准则的适用范围。根据统计学分析,响应速率和ACC具有更高的相关性和效应量,在度量准则中更能适用于警觉度的分析;遗漏相关准则(错误开始、遗漏概率)在效应量和显著性分析中表现突出,但在相关性分析中表现不足,可以进一步提高该准则的有效性;和响应时间相关的准则(平均响应时间、Q-10、Q-90)受到被试异常响应的影响较大,在警觉度分析的过程中容易产生误差;Q-50可以避免异常响应的影响,但从统计学的角度分析,和响应时间相关的度量准则的效应量和显著性表现较差。在后续的研究中通过引入脑电和眼电数据等其他生理信号,可以进一步的在多模式基础上对操作员的精神状态进行综合评价。
[1] | Nelson J T, Mckinley R A, Golob E J, et al. Enhancing Vigilance in Operators with Prefrontal Cortex Transcranial Direct Current Stimulation(tDCS)[J]. Neuroimage, 2014, 85(15): 909-917. |
[2] |
赵云龙, 王学民, 薛然婷, 等. 基于复杂性度量的大脑警觉度分析[J]. 生物医学工程学杂志, 2015(4): 725-729.
Zhao Yunlong, Wang Xueming, Xue Ranting, et al. Brain Vigilance Analysis Based on the Measure of Complexity[J]. Journal of Biomedical Engineering, 2015(4): 725-729. (in Chinese) |
[3] |
高振海, 段立飞, 赵会, 等. 基于生理信号的多任务下驾驶员认知负荷的评定[J]. 汽车工程, 2015(1): 33-37.
Gao Zhenhai, Duan Lifei, Zhao Hui, et al. Assessment of Driver's Cognitive Workload under Multitask Based on Physiological Signals[J]. Automotive Engineering, 2015(1): 33-37. (in Chinese) |
[4] | Hart G S, Stavenland E L. Development of NASA-TLX(Task Load Index):Results of Empirical and Theoretical Research[J]. Advances in Psychology, 1988, 52: 139-183. DOI:10.1016/S0166-4115(08)62386-9 |
[5] | Zhang X, Li J, Liu Y, et al. Design of a Fatigue Detection System for High-Speed Trains Based on Driver Vigilance Using a Wireless Wearable EEG[J]. Sensors, 2017, 17(3): 486. DOI:10.3390/s17030486 |
[6] | Shimomura Y, Yoda T, Sugiura K, et al. Use of Frequency Domain Analysis of Skin Conductance for Evaluation of Mental Workload[J]. Journal of Physiological Anthropology, 2008, 27(4): 173. DOI:10.2114/jpa2.27.173 |
[7] | Joux N R D, Wilson K, Russell P N, et al. The Configural Properties of Task Stimuli DO Influence Vigilance Performance[J]. Experimental Brain Research, 2015, 233(9): 2619-2626. DOI:10.1007/s00221-015-4331-8 |
[8] | Davis C M, Roma P G, Hienz R D. A Rodent Model of the Human Psychomotor Vigilance Test:Performance Comparisons[J]. Journal of Neuroscience Methods, 2016, 259(3): 57-71. |
[9] | Whelan R. Effective Analysis of Reaction Time Data[J]. Psychological Record, 2008, 58(3): 475-482. DOI:10.1007/BF03395630 |
[10] | Basner M, Mcguire S, Goel N, et al. A New Likelihood Ratio Metric for the Psychomotor Vigilance Test and Its Sensitivity to Sleep Loss[J]. Journal of Sleep Research, 2015, 24(6): 702-713. DOI:10.1111/jsr.12322 |