神经影像社区在收集大规模神经成像数据集方面取得了重大进展,这些数据集在过去的十年中似乎遥不可及。在重点关注以前收集的数据集的聚合和开放共享以及负责创建社区资源的重新数据生成计划的计划之间,现在可以在线获得数万个数据集。
这些包括一系列发育状态和障碍,很快就会有更多。这些开放数据允许研究人员增加他们的研究规模,应用各种学习策略(例如,人工智能),以及基于脑的生物标记物发现的野心,并解决有关结果可重复性的问题,所有这些都是前所未有的。成像。然而,如图1-3所示,迄今为止生成的数据集中很少包含每个受试者足够的数据,以实现高度可靠的大脑连接测量。虽然我们对这一关键缺陷的研究侧重于神经影像学领域,但我们的论证和所讨论的统计学原理的含义广泛适用。
确定问题的范围
我们的关注很简单:研究人员正在努力收集大规模数据集,无论是通过数据共享还是协调数据生成计划,还是未能针对相关可靠性优化其数据收集(例如,重测试,评估者之间等)4。他们可能正在收集更多的次优数据,而不是较少量的高质量数据,这种权衡对于该领域来说并不是一个好兆头,特别是在个人层面进行推理和预测时。我们相信,通过对可靠性的重要评估,可以避免这种失误。
我们在神经影像学中观察到的权衡反映了神经科学的一般趋势。统计能力是研究个体差异的基础,因为它决定了我们检测感兴趣效应的能力。虽然样本量很容易被认为是统计功效的关键决定因素,但测量可靠性较少被考虑,最多只能在估算所需样本量时间接考虑。这是不幸的,因为统计理论规定可靠性对最大可检测效应大小设置了上限。
在统计功效的确定中,可靠性,样本大小和效应大小之间的相互作用通常在该领域中被低估。为便于更直接地讨论这些因素,图1描述了测量可靠性和效应大小对达到理想的统计功效水平所需的样本大小的影响(例如,80%);这些关系并不严重依赖于所采用的统计推断的具体形式(例如,双样本t检验,配对t检验,三级ANOVA)。使用R中的pwr包生成估计值,并与蒙特卡罗模拟结果高度一致5。关于神经科学,大部分研究结果报告的效果大小从适度到中等6,这个数字显然表明我们的观点是,提高可靠性可以大大降低样本量要求(从而降低成本),从而实现统计上合适的设计。
在神经影像学中,实验中采用的措施的可靠性可以大致变化2-4。在MRI中,已知形态学测量具有最高的可靠性,大脑中的大多数体素表现出可靠性,测量为核心测量的组内相关性> 0.8(例如,体积,皮质厚度和表面积)。对于功能性MRI(fMRI)方法,可靠性往往更低且更易变,严重依赖于实验设计,所采用措施的性质,以及 - 最重要的是 - 获得的数据量(例如,基本休息 - 状态fMRI测量,体素获得的平均类内相关性可能会增加2到4倍,因为数据从5分钟增加到30分钟)2,3。有限的个体内变异性可能是fMRI低可靠性发现的重要因素,因为其相对于受试者内变异的幅度是可靠性的主要决定因素。对于fMRI7的任务提出了这样的担忧,它直接借用了心理学文献中的行为任务设计8。
潜在影响
从统计学的角度来看,动力不足样本产生假阴性增加和人为膨胀效应大小(即“赢家诅咒”偏见)的风险是众所周知的。最近,已经建立了不充分供电的样品产生假阳性的可能性9。所有这些现象都降低了研究结果的可重复性,这是其他领域(例如遗传学)长期努力克服的挑战。在神经影像学或人类大脑绘图的背景下,另一个问题是我们可能偏向于高估那些测量可靠性更高的大脑区域。例如,默认和额顶网络在个体和群体差异的临床和认知神经科学研究中受到更多关注。这可能是合适的,但也可能反映出这些网络的较高可靠性3,4。
解决方案
我们的目标是更加关注评估和优化可靠性的需求,这在神经科学研究中通常未被充分认识。无论是专注于成像,电生理学,神经炎症标记物,微生物组学,认知神经科学范例还是面对面设备,我们都必须考虑测量可靠性及其决定因素。
对于基于MRI的神经影像学,跨越各种模态(例如,扩散,功能,形态测量)的重复主题是较高质量的数据需要更多的时间来收集,无论是由于增加的分辨率还是重复。因此,研究人员将受益于评估最低数据要求,以便在向前推进之前实现充分可靠的测量。越来越多的资源可用于此类可靠性评估(例如,可靠性和再现性联盟,MyConnectome项目,健康脑网络串行扫描计划,午夜扫描俱乐部,耶鲁测试 - 再测试数据集,PRIMatE数据交换)。值得注意的是,这些资源主要集中在测试 - 再测试可靠性4上,其他形式的可靠性研究较少(例如,州际可靠性,扫描仪间可靠性;参见研究主题最近关于功能连接组学中可靠性和可重复性的努力10)。