混合模型框架下的模型,如潜变量增长混合模型(latent growth mixture modeling,LGMM)或潜类别增长分析(latent class growth analysis,LCGA),因估算过程中涉及多个决策过程,导致潜变量轨迹分析结果的报告呈现多样性。为解决这一问题,指南制订小组按照系统化的制订流程,通过 4 轮德尔菲法调查,遵循专家小组意见,提出了各领域报告潜变量轨迹分析结果时需采用统一的标准,最终确定了报告轨迹研究结果必要的关键条目,发布了潜变量轨迹研究报告规范(guidelines for reporting on latent trajectory studies,GRoLTS),并利用 GRoLTS 评价了 38 篇使用 LGMM 或 LCGA 研究创伤后应激轨迹的论文的报告情况。
估计潜变量轨迹的研究方法在社会学、行为学和生物医学领域越来越流行[1-3]。因其在混合模型框架下进行模型估计的过程中会涉及多个决策过程,选择不同的决策方案会在一定程度上影响研究结果,甚至可能产生不同结论。尽管目前潜变量轨迹分析十分受欢迎,并成为了许多领域内分析纵向数据的主流工具,但尚无潜变量轨迹模型结果的报告标准。这导致了论文中对潜变量轨迹分析结果的报告存在很大差异,而不充分或不完整报告潜变量轨迹分析结果会妨碍对结果的解读和批判性评价,并且影响不同研究间结果的横向比较。
本文介绍潜变量轨迹研究报告规范(guidelines for reporting on latent trajectory studies,GRoLTS)。GRoLTS 的最终目标是提高潜变量轨迹研究报告的一致性,使研究结果可完全透明(高质量)地呈现,并且可用于研究间的比较、重复、系统评价和 Meta 分析等。在本文中,我们将首先描述 GRoLTS 的制订过程,即采用系统化的制订过程,通过 4 轮德尔菲法,由专家小组确定报告轨迹研究结果必要的关键条目;随后详细描述每一个关键条目内容;最后,介绍利用 GRoLTS 评估 38 篇使用潜变量轨迹分析探讨创伤后应激症状(posttraumatic stress symptoms,PTSS)变化研究的报告情况。更多相关信息请参阅 Open Science Framework(https://osf.io/vw3t7/),包括:① 德尔菲研究的全部细节;② 可用于教学的部分条目的补充信息;③ 筛选 38 篇 PTSS 论文的数据集。
1 GRoLTS 的制订
GRoLTS 的制订过程包括以下阶段[4]:① 初步确定主题;② 形成条目;③ 评估表面效度;④ 评估一致性和结构效度的现场试验(field trials);⑤ 制订最终的精炼条目清单。
指南制订之初,制订小组明确了 GRoLTS 需符合以下基本要求:① 适用对象为探索性使用潜变量轨迹分析来回答实质研究问题的论文;② 总结报告潜变量轨迹分析结果的要求;③ 确保不同背景的研究人员能够一致、可靠地使用此报告规范进行报告;④ 条目简明扼要易于完成,同时应包括确保结果可重复性和透明性的所有方面。
在制订阶段,制订小组共邀请 27 名专家(参见致谢中的专家名单),并向他们提供了 GRoLTS 的制订目标和要求,通过前 3 轮德尔菲法和第 4 轮现场试验评估所有条目的表面效度。制订小组采用德尔菲法在专家小组中就 GRoLTS 应包括哪些标准及具体条目的措辞达成一致。以上每个步骤的具体细节,包括 GRoLTS 的所有前期版本请参阅 Open Science Framework(https://osf.io/vw3t7/)。
2 GRoLTS 条目和解读
GRoLTS 包含 16 个条目(部分含子条目,表 1)。每个条目评分为 0(未报告)或 1(已报告)。建议在如下情况使用 GRoLTS:① 研究人员准备提交论文前;② 编辑、审稿人和授权专家核查论文是否报告了所有基本要素;③ 老师向学生讲解潜变量轨迹分析结果中哪些要素是重要的。我们将对每一个条目(特别是复杂的条目)进行解读,并对文献中讨论内容进行概述。关于条目 1、2、7 和 14 的更详细信息请参阅 Open Science Framework(https://osf.io/vw3t7/)。

条目 1:是否报告统计模型中所使用的时间度量?
在任何类型的增长模型中,时间编码对结果解读都具有重要意义。如 Eggleston 等[5]研究所示,随访时间长度会影响潜变量轨迹的数量,形状-时间越长,轨迹越多。此外,Piquero[6]对基于犯罪数据的潜变量增长混合模型(latent growth mixture modeling,LGMM)和潜类别增长分析(latent class growth analysis,LCGA)进行系统评价后发现,时间点的间隔也会影响轨迹数量。因此,不仅要透明地报告时间度量,更要正确地设定时间点间隔。时间度量的设定应该在分析开始前依据研究设计确定,而非根据模型的拟合程度或增长参数的显著性。关于时间度量更深入的讨论请参阅 Open Science Framework(https://osf.io/vw3t7/),及 Biesanz 等[7]或 Duncan 等[8]的研究。
条目 2:是否提供单个随访的均数和标准差?
在纵向研究中,由于组织安排的原因,对不同研究对象进行多次数据采集时,不同个体间的采集时间间隔必然存在一些差异。这种差异被称为时间-非结构化数据或随访内变异。与之相对应的是时间-结构化研究,即所有研究对象的数据均以相同的时间间隔采集。在某种程度上,绝大多数纵向数据是时间-非结构化的。也就是说,并非所有研究对象都在相同的时间点采集数据,请参阅 Palardy 等[9]的实例。然而,时间-非结构化数据往往会被研究者忽略时间的非结构化特性,而按照时间-结构化数据进行分析,这可能严重曲解分析结果真实性。Singer 等[10]发现,当使用预期年龄而非实际年龄作为时间度量时,会高估线性斜率、截距和线性斜率的方差。Mehta 等[11]、Hertzog 等[12]及其他几个模拟研究[13,14]也得出相似的结论。我们建议,在每个数据集中纳入一个时间变量,用于记录不同观测点间的确切时间间隔,以便能够在方法部分计算并报告时间间隔的变异程度。因此,可使用随个体观测时间变化的随机因子载荷替代固定因子载荷(更多细节请参阅 Coulombe 等[14])。更详细的解释和图解说明请参阅 Open Science Framework(https://osf.io/vw3t7/)。
条目 3a:是否报告缺失数据机制?
大多数纵向研究存在缺失数据或研究对象失访问题。在描述缺失数据和失访情况时,应首先报告数据缺失机制。数据缺失机制一般可分为三种类型[15]:① 完全随机缺失(missing completely at random,MCAR),即所有缺失数据的发生不依赖于所有观测到或未观测到的变量;② 随机缺失(missing at random,MAR),即缺失数据可能依赖于观测到的变量,但不依赖于未观测到的变量;③ 非随机缺失(missing not at random,MNAR),即缺失数据依赖于未观测到的变量。我们无法判断数据缺失属于 MAR 还是 MNAR(因无法检验),只能尽量保证数据的缺失符合 MAR 假设。统计模型如 LGMM/LCGA 的假设均基于 MAR。因为对所有研究对象均进行了多次测量,只要失访不是以某种特定方式系统性地发生,在纵向队列中就可假定该失访满足 MAR 情况(即这些个体的观测变量得分的缺失,可假定是随机的)。
条目 3b:是否描述与失访或缺失数据相关的变量?
正如 Asendorpf 等[16]的研究所示,对于纵向研究,即使每一轮随访中微小且不显著的选择性退出,效应也会在整个随访过程中逐渐累积,最终导致结果产生越来越大的偏倚[17]。因此,研究者应比较退出与完成研究的对象的相关特征。与失访或缺失相关的变量(也称辅助变量)可作为模型中的协变量(服从 MAR 假设下拟合)或可在多重填补(multiple imputation,MI)模型中使用。使用 MI 的优点是可将缺失数据的处理与目标模型区分开来。
条目 3c:是否描述分析过程中缺失数据的处理?
关于缺失数据报告的第三个问题是在分析过程中如何处理缺失数据。在许多论文中都引用了 Peeters 等[18]对不同填补模型的比较。目前,处理缺失数据较为普遍和灵活的方法是利用链式方程的多重填补(也称预测均值匹配)[19,20]。
条目 4:是否纳入观测变量分布类型的信息?
潜变量轨迹分析中的因变量可存在不同形式。通常假设变量是连续型且在组内呈正态分布,但实际上并非总是如此。因变量可能不是连续型变量,而是分类变量(如,具有五个应答类别的李克特式量表)、计数资料(如,计数某人的症状数量)或零膨胀型(如,80%~90%的研究对象得分为 0)。正如 Vermunt[21]所述,假设组内因变量呈正态分布至关重要,当假设因变量在组内呈多项分布(非正态分布)时,建议不使用连续型变量混合模型,应转而使用离散型变量混合模型。Bauer 等[22-24]研究发现,当变量分布的假设不成立时(即当实际的结局分布为非正态分布时),即使结果只呈现一组轨迹[25]也更倾向于选用多轨迹群组模型,只要在统计分析软件中设定研究结局的类型,潜变量轨迹框架就可轻松处理该类变量,并避免过度提取潜类别。另一种方法是使用潜变量[26],即通过使用单个条目分数而非总分来考量结局的测量结构。如果模型中的潜变量有意义,那么潜变量和调查条目的测量结构应该随时间稳定,即测量结构不随时间变化而变化。以上是一个需要检验的重要假设,又被称为测量不变性[27],虽然该假设并不总是成立,但该假设会对结果产生较大影响[28]。
条目 5:是否提及统计分析软件?
目前可用于估计潜变量轨迹的程序包有以下几种:LatentGold[29]、Mplus[30]、SAS Proc Traj[31]、Stata GLLAMM[32]、R 程序包 LCMM[33]、R 程序包 OpenMx[34]等。这些程序包指定默认模型的方法均有所不同。例如,Mplus 的默认设置是在组间限制协方差和(残差)方差。相反,在 LatentGold 中则使用先验残差进行后验方法估计,以防止残差变为 0。出于可重复性的考虑,提供使用的软件及版本信息至关重要(因为版本更新可能涉及到后台算法调整)。在下一个条目中,我们会进一步讨论方差-协方差矩阵的设定。
条目 6a:是否考虑并清晰记录处理组内异质性的方式(如 LCGA 或 LGMM)?
在建立潜变量轨迹模型时,为精确地指定模型需要做许多选择。处理组内异质性的第一种方法,涉及潜类别内增长参数的方差。有两种潜变量增长模型可解释未观测到的群体。如果在潜变量轨迹内估计增长参数的方差,则这种建模灵活性称为 LGMM[1,35-38]。如果假设组内所有个体增长轨迹是同质的,且假设组内增长因子的方差和协方差估计值固定为 0,则称为 LCGA[39-42]。Groudace[43]、Erosheva[44]、Feldman[45]、Jung[46],Kreuter[47]和 Twisk 等[48]很好地总结了 LGMM 和 LCGA 间的区别。
Nagin[39,41]运用理论方法并引入潜变量轨迹模型的两个概念:① 作为群体异质性连续但未知分布的近似值;② 作为具体的轨迹,可视为非常重要的实体。在第二种概念中,该轨迹有描述性名称,并作为不同的实体进行讨论。Erosheva 等[49]的系统评价表明,大多数研究人员采用第二种方法(第 325~326 页),但能够真正发现不同轨迹组别的情况其实十分罕见。正如参与本指南解读的一位专家所说:“我还没遇到过一种能够明确表述的发展理论,它能先验地参数化增长因子组内方差-协方差的结构。”Twisk 等[48]认为应从可行性角度出发选择研究方法。由于 LGMM 算法较难,研究人员常选用 LCGA。但实际上 LGMM 更灵活,因为该方法考虑了前面提到的组内变异带来的异质性问题,但这种灵活性也带来了一定的问题:如需要更强的计算能力、需要更大样本量、可能引发收敛问题等。既往在专业期刊如Infant Child Development上,已对使用何种参数化方法这一问题进行了激烈讨论[25,37,50,51]。本文对这一问题不再赘述,只强调应在论文中讨论最终模型的选择。理想情况下,应采用两种模型拟合数据并进行比较。提出此建议的原因是实际结果会因模型选择的不同而异,因此检查每种方法对于理解其对最终模型解释的影响非常重要。
条目 6b:是否考虑并清晰记录处理组间方差-协方差矩阵结构差异的方式?
除 LGCA 和 LGMM 间的差异外,第二个问题是约束误差结构(相较于不同类别中自由估计)。约束误差结构与不同类别间增长因子方差-协方差矩阵的异质性(相较于同质性)相互影响。也就是说,潜类别间的残差和方差-协方差矩阵是相同的,还是不同的?以下原因可解释为什么残差在潜类别间保持不变或各潜类别具有特定的残差:潜类别间残差相同是以偏离增长曲线的变异在组间没有差异为假设,而潜类别间残差不同则是以某些组(这里指潜类别)偏离增长曲线的变异要大于其他组为假设。组内特定的残差可能更符合实际情况,然而由于模型包含多项参数,因此该情况可能引发估计问题。此外,若使用连续数据模型分析离散数据,则会出现残差为零的情况。我们建议研究人员应基于已知、具体的信息及分析过程中出现的估算问题选择相应模型。
是否约束潜类别间方差-协方差矩阵更需要考虑现实问题。虽然每个潜类别都允许存在特定的方差-协方差矩阵,但由于模型需要估计大量参数,因此需要更大的样本量来避免收敛问题。对于较小样本量的解决方法是分别估计方差-协方差矩阵,研究人员多采用约束方差-协方差矩阵来简化模型(或处理局部极大值的误差信息)。无论采用何种方法设定组间方差-协方差矩阵,研究人员都应在论文中明确报告,因为不同设定均会对研究结论产生实质性影响。具体来说,研究人员应尽可能清楚地列出所有使用的研究方法及原因(如,“理论表明增长因子的变异在亚组间是恒定的,因此我们认为矩阵相同”等)。其次,研究人员应根据所作假设解释结果。需注意的是,若重新定义方差-协方差矩阵,结果也可能随之改变。例如,如果协方差矩阵改变(如各类别间自由估计),则潜类别的估计结果也会随之改变并产生完全不同的解释。
条目 7:是否描述轨迹的形状和函数形式的设定?
令趋势线变化的主要方法之一是指定用于捕获随时间变化的增长函数。基于多项式函数的增长模型通常用于估计线性、二次、三次等变化[38]。然而,增长不需要通过多项式函数估计。许多非线性参数模型也常用于估计增长,例如 logistic、Gompertz 和 Richards 增长曲线[52]。平滑函数的半参数模型,如广义加性模型,同样可用于估计增长[53];此外,还可使用分段模型[9,54]。我们建议不仅要报告每条轨迹在最终模型中的形状,还需要根据指定函数验证模型:例如,比较线性增长模型与包含二次效应模型的结果。关于不同形式的增长函数是如何影响增长参数解释的问题,请参阅 Open Science Framework(https://osf.io/vw3t7/)。
条目 8:如果纳入协变量,分析是否仍可重复?
预测因素(或协变量)可在 3 个不同水平添加到模型中(图 1):① 在因变量水平上作为依时或非依时协变量纳入,以控制在特定时间点的变异;② 在增长参数水平上纳入,以寻找不能通过协变量个体差异(如年龄、膳食、社会经济状况)解释的潜类别;③ 在自变量水平纳入,以预测潜分组。如果协变量被指定为模型的一部分,那么该模型通常被称为条件模型;而非条件模型是指在忽略协变量的情况下探索潜类别数量。需注意的是,无论预测因素出现在模型中的哪个位置,它们既可是直接观测到的变量也可是潜变量。目前有多种方法可用于预测潜分组,我们将在下文逐一介绍。

该模型包括 1~8 个类别(C=1,…,8),8 个重复测量变量(创伤后应激障碍,posttraumatic stress disorder,PTSD 等),3 个增长参数(截距、斜率、二次项)和可添加协变量的 3 个位置。
一步法:在联合模型中可纳入潜分组的预测因素,该模型可同时估计组别和预测潜分组。一步法有两个缺点:第一,纳入的预测因素可能会不适当地修改潜类别结构的构成。理论上,模型中的任何改动都会影响潜类别下个体的划分。由于协变量会影响潜类别的形成,所以在模型中直接加入预测因素会导致结果的缺陷。此外,因为潜变量是通过测量指示变量获得,直接加入预测因素可能使潜类别失去意义(第 329 页)[55]。La Greca 等[56]详细描述了这种效应(第 360 页)。在这种特定情况下,应重新考虑潜类别数量,而不是继续采用在没有纳入协变量的情况下所确定的类别数量。无论改变潜类别估计结果的效应是否对研究人员有意义,对于在模型中纳入或不纳入协变量的标准仍不明确;参阅 Palardy 等[9]的研究,其根据所需的潜类别数量比较了有、无协变量模型的区别。总之,希望研究人员不要将选择主要预测因素的问题与发现潜类别数量的问题混为一谈。第二,受影响的还有一个称为熵的指数(另见条目 13)。熵的作用是评价将个体划入各潜类别这一分类过程的准确性,反映了根据个体轨迹和协变量值预测潜分组的水平。若熵值接近 1.0,则认为进行了适当的分类;若熵值接近 0,则认为分类效果较差。采用人工纳入预测因素的一步法会人为地高估熵指数,导致过于夸大分类的可信度。而且,熵本身的含义也在变化。
标准三步法:保留最合适的潜分组并分别分析数据 按照该策略,首先在没有潜分组预测因素的情况下确定潜类别的数量(步骤 1)。随后保留最合适的潜分组与原始数据合并(步骤 2),并采用多项式回归分析将其与潜变量轨迹模型分开分析(步骤 3)。Andersen 等[57](补充材料,第 2 页)和 Pietrzak 等[20](第 208 页)清晰描述了该方法。尽管该方法采用了最合适的潜分组策略来解决了一步法存在的各种问题,但它忽略了潜类别分配的不确定性。换句话说,该策略假设个体在潜类别分配中不存在错分。其结果是,基于协变量的预测可能低估真实效应。但是可通过熵来评估低估程度:熵值越高,错分越少,潜分组预测结果偏倚越小[58]。保留最合适的潜分组策略要求熵值足够高,且作者承认衰减效应。
使用“伪分类”方法的三步法:由 Wang 等[59]提出的方法是:首先估计潜类别模型,然后基于从模型中获得的后验分布采用 MI 处理潜类别变量,随后使用由 Rubin 等[60,61]提出的 MI 技术,分析填补的潜类别变量和协变量。Peutere 等[62](第 17 页)详细地描述了该策略。与前文提及的其他方法相同,若使用伪分类方法,研究人员应进行明确地描述,并且说明潜类别变量是通过 MI 获得。
调整错分三步法:该方法由 Vermunt[3,63]在 Bolck 等[64,65]的思想上发展而来。与前文中的三步法不同,该方法考虑了第三步分析中潜类别分配下的错分问题,即估计所得潜分组并非真实的潜分组这一问题。实际上,估计潜类别模型,只是将步骤 2 中指定的潜分组作为单一指示变量,根据步骤 1 和 2 的估计值确定错分概率(第 330 页)[55]。该方法允许协变量在标准潜类别模型中预测潜分组,但也可通过潜分组预测远端结局[66]。
调整错分三步法与前文中提及的三步法具有相同的优点,即可将构建对目标响应变量有意义的潜变量轨迹模型与构建探究潜类别与外部变量关系的模型区分开来。但需注意,该方法同样存在前提假设,除了要求外部变量和潜类别指示变量相互独立之外,当外部变量为远端结局时,还需正确设定远端结局的组间分布。请注意,尽管可放宽条件独立假设,但该假设同样适用于一步法。针对远端结局组间分布,Bakk 等[66]表示,即使偏离分布假设,BCH 变异[64]仍然稳定,但最大似然(maximum likelihood,ML)变异却并不稳定。
总之,可在 LGMM 中的 3 个不同水平纳入协变量(图 1),并且当分析目标是预测潜分组时,至少有 4 种纳入协变量的方法,同时也是纳入协变量的常见原因。由于纳入协变量的方式和方法对模型结果解释有很大影响,在没有明确推荐方法的情况下,作者对上述过程进行完全透明的报告极为重要。
条目 9:是否报告随机起始值数量和最终迭代次数?
若使用 ML 估计潜变量轨迹模型,了解最终的潜类别估计结果是否已收敛到 ML 分布的最大值而不是所谓的局部最大值十分重要。因为 ML 函数有时不仅只有一个最大值,还可能存在几个最大值,这种情况需要根据模型参数的起始值找到“真实”(即绝对)的最大值。因基于局部最大值(相较于真实最大值)的估计结果可能与最优结果有很大不同,所以强烈建议基于多个不同起始值重新运行模型,以确保找到最优解。在统计学文献中已经非常详细地讨论了在估计混合模型时使用多组起始值的重要性。例如,Hipp 等[67]详细讨论了不恰当或起始值过少对结果的影响。研究发现,当起始值错误时估计结果可能有实质性的错误。每个估计的参数都有相对应的较为适当的参数空间,他们建议根据这些空间“明智地”确定每个参数的起始值。参数的起始值可随机生成,但是在混合建模环境中,通常基于某些理论选择这些参数。Finch 等[68]讨论了基于某理论在潜类别分析中选择阈值起始值以避免在错误的参数空间中探索估计算法的问题。此外,为充分探索参数空间并避免仅收敛到局部最大值,建议将每个参数的起始值数量增加到至少 50 到 100 组[67]。当研究人员基于某理论或既往研究设定起始值时,这些起始值集合包含了既往相关起始值的随机波动,可确保所有集合覆盖了可能的参数空间。
条目 10:是否从统计的角度描述模型比较(和选择)工具?
多项统计标准可用于判断模型对数据的拟合程度,即应当划分出多少潜类别。Nylund 等[69]的大样本模拟研究显示,贝叶斯信息准则(Bayesian information criterion,BIC;Schwarz[70])的表现优于其他模型选择工具如 LGMMs 背景下的 Akaike 信息准则(Akaike information criterion,AIC)[71]。两者都是基于对数似然把参数数量作为模型复杂性的惩罚项,以此来评估相对模型充分性的模型选择工具。从轨迹数量的角度来看,具有最小 BIC 值的模型最优(参见图 2 中模型 2 的结果)。BIC 目前已有许多衍生形式,其中样本量调整的 BIC 有时也用于潜变量轨迹研究。

需注意,带有一个星号的模型表示随机启动次数增加到 1 000,带有两个星号的模型没有达到收敛。
由 Lo 等[72]提出的 Lo-Mendel-Rubin 似然比检验(Lo-Mendel-Rubin-likelihood ratio test,LMR-LRT)是另一种常用的模型选择工具。LMR-LRT 检验k−1 个类别是否优于k个类别,若检验结果显著,则表明拒绝k−1 个类别的零假设,接受至少k个类别。但 Jeffries[73](第 901 页)指出,“该方法还未得到证实,模拟研究表明其结果可能不正确。”随后,Nylund 等[69](第 538 页)回应,最初在 Lo 等[72]的早期模拟研究表明,尽管如 Jeffries 所述,可能存在分析不一致性,但 LMR-LRT 仍可作为一种用于类别算法的有效检验工具。鉴于既往文献中潜在的不一致,我们建议研究人员不要仅根据 LMR-LRT 工具确定类别数量。最近,有模拟研究证明 bootstrap 似然比检验(bootstrap likelihood ratio test,BLRT)[74]是选择最优类别数量的良好指标[69],当将其应用于经验数据时总会得到显著结果。
尽管就评估拟合程度的方法仍有诸多争议,但专家小组已经达成共识,推荐使用 BIC。当模型选择工具和熵指数所确定的最优维度很大、各工具评估结果相互冲突或与理论冲突时,研究人员在实际操作中常将潜变量轨迹的数量减少至理论上有意义的数量。例如,研究人员通常会删除只有微小变异的轨迹(如,Galatzer-Levy 等[75])或拒绝有收敛问题的模型(如,Orcutt 等[76])。
总之,我们建议研究人员如实描述选择最终模型的过程。基于现有文献,我们建议选择 BIC 作为模型比较工具,但也建议研究人员使用多个工具来避免“选择性失明”(即只看到有利于结论的证据,忽略不利证据)。请参阅表 2 和图 2,了解如何选择并使用模型比较工具(请注意,表 2 采用模拟数据用以举例说明)。如类似表 2 情况,拟合指数在最优类别数量上不一致,应告知这一结果。作者应报告所有检验的模型,并最好结合理论对最终所选模型举例说明(另见条目 14)。值得注意的是,有研究提出了许多可供选择的指标[59]且该领域正迅速发展[77],因此研究人员应该及时关注该领域的新进展。

条目 11:是否报告拟合模型总数,是否包括仅含一个类别的模型?
轨迹分析的目的是找到描述数据集变异的潜类别的最优数量。为了找到类别最优数量,我们建议采用先从仅含一个类别开始的前进建模法,这是拟合效果最好的非混合潜变量增长模型。该模型简单地假设群体中不存在亚组,随着时间的推移所有个体或多或少遵循相同的轨迹。研究人员通常不会报告仅含一个类别的结果,但往往非混合模型能更好地拟合数据。图 2 中模型 1 所示,假如不报告仅含一个类别的结果,根据 BIC 的值会选择含三个类别的模型。但当报告仅含一个类别的结果时,BIC 提示一类别为最优模型。在这种情况下,结论则应为群体中不存在潜类别(即一类别为最优)。在拟合一类别模型后,应该逐步增加类别以确定哪个模型拟合最好。当模型拟合指数不再优化时也不应停止此过程,应该继续拟合至少一或两个额外的模型,以确保所有可能的模型都纳入了分析。
条目 12:是否报告每个模型下每组所含个体数量?
确定最终类别数量时不应仅基于统计标准。例如,统计上的最优解轨迹可能只含有非常少的研究对象。当两个群组(即潜类别)的规模明显不同时(如一个群组远大于另一个),大的群组会覆盖小的群组,从而导致对群组规模和相应增长轨迹的错误估计[78]。此外,由于缺乏足够的实质性信息来识别群组,模型可能无法正确识别样本量较小的群组。在此情况下,轨迹的识别可能基于异常值或其他随机波动,而不是真实的群组[22,36,79]。因此,研究人员应提供每个模型中各潜类别下样本量的相关信息(具体操作过程请参阅表 2)。
条目 13:如果轨迹分析的目的是对个体进行分类,是否报告熵?
对个体进行分类是潜变量轨迹研究的常见分析目的,在这种情况下,研究人员必须报告分类的性能。评价分类性能的工具之一是相对熵值,该值越高表示个体归类越准确。也就是说,模型能够清晰地对特定类别中的个体进行分类,并且不同类别间存在足够的区分度[78]。相对熵也被称为衍生潜类别的“模糊性”度量[80,81]。当每个研究对象的所有后验概率相等时,相对熵值为 0(即在三个潜类别下,所有参与者被分到其中一个潜类别的后验概率为 0.33)。当每个参与者仅完全适合一个潜类别时相对熵为最大值 1,表示潜类别间能完全区分开来。因此,当熵值过低时需要小心,这提示研究对象没有很好地被分类或没有被分配到合适的潜类别。综上,Celeux 等[58]提出,相对熵可被视为评估潜变量轨迹模型划分数据效能的度量,Greenbaum 等[82](第 233 页)对此进行了更为完善的解释。然而,相对熵并不适用于确定潜类别数量[80,83,84]。Ram 等[85]建议,在多个模型的拟合指数(如,BIC)近似时,较高熵才对模型选择有意义。尽管如此,我们仍建议作者报告熵值(见表 2)或像 Greenbaum 等[82](第 233 页)一样报告每个模型中的错分数量。
条目 14a:是否报告最终结果的估计平均轨迹图?
条目 14b:是否报告每个模型的估计平均轨迹图?
如前所述,许多研究人员单独使用实质性论据或结合模型选择工具来决定潜类别数量。检查轨迹图对评估不同潜类别估计结果下的模型效能十分有帮助。需要报告的第一类图为平均轨迹,不仅局限于最终模型,而应覆盖所研究的每个模型(如在建模和评估分析结果阶段均应进行模型比较)。我们在 https://osf.io/vw3t7/中提供了一个示例。因可能有大量模型需要拟合,报告全部轨迹图存在一定挑战性,但如果仅根据理论论证来决定类别数量,则必须报告所有估计结果的轨迹图。需注意的是,若期刊不允许在正文中呈现较多的图,可将该信息作为在线补充材料。我们认为,必须提供完整的轨迹图信息以便其他研究者可重现最终分类数量。
条目 14c:是否报告最终模型的估计均值和每个潜类别下实际观测到的个体轨迹图?
除报告每个模型的估计平均轨迹外,结合实际观测到的个体轨迹分析最终估计平均轨迹也十分重要。Erosheva 等[44]提出,通过上述图示可直观地看到潜变量群体轨迹对个体差异的解释程度,及不同组别下实际观测到的个体重叠程度。如图 3 所示,所有个体可能都遵循平均轨迹且可能采用了 LCGA(图 3a)。需注意,尽管该图展示了个体轨迹的变化,但随时间推移它们基本上都遵循相同的增长模式。但图 3b 中个体轨迹差异较大,平均轨迹并未反映数据的真实情况。图 3c 中,实际上没有一个个体轨迹遵循平均轨迹,那么即使有足够的拟合统计量,对结果的可解释性也存在一定质疑。图 3d 的情况更不理想,因为其中的二次效应完全可能是缺失数据所致。

条目 15:是否用数字描述了最终潜类别模型的特征?
不仅需要呈现各模型下的潜变量轨迹图,还需要呈现最终模型和每个模型各项参数的表格。具体包括:估计均值、标准差、P值、可信区间及用于估计每个模型参数的样本量(注意任何缺失数据)。表格中的所有信息均应有助于读者解读结果,即使数据结果未在正文中完整报告,读者仍应可获得完整的模型结果。包含全部模型结果的表格还有助于实现结果报告的充分透明和完整重复。
条目 16:是否提供程序语句文件?
人们越来越意识到公开和透明的研究对维持和提高科学质量至关重要[86-90]。实现研究透明化的方式之一是共享数据、程序语句和其他支持材料(请参阅 Open Science Framework,https://osf.io/vw3t7/)。这些共享内容是所有论文的重要组成部分,它们让其他研究人员可重现或改变论文中所报告的数据分析。此外,它们可使其他研究人员发现分析中的潜在错误,甚至是假的结果。公开程序语句文件是迈向完全公开数据和其他材料的第一步。多种方法可为读者提供语句文件:如以附录的形式呈现、通过在线补充材料或在线数据存储库来提供。语句信息最好不要仅在个人网站上展示(因为个人网站不是永久性的,可能会在某天关闭)。此外,一些新工具可助力语句的可及性。例如由 Center for Open Science 开发的在线协作工具,研究团队可通过该工具将其研究材料的任一部分公开,以支持开放交流。Center for Open Science 还创造了一些“徽章”来证明论文满足了开放材料要求。这些发展提示程序语句文件不应远离读者。我们的文件可在 Open Science Framework(https://osf.io/vw3t7/)上找到。
3 GRoLTS 在潜变量轨迹研究系统评价中的应用
为评估 GRoLTS 的一致性、有效性和可用性,我们利用 38 篇使用潜变量轨迹分析(即 LGMM 或 LCGA)来评估创伤事件后 PTSS 变化的研究对该报告规范进行了测试。每篇文章的平均评估所需时间为 20 分钟,每篇论文评价由两名评价员独立进行。当得分相互矛盾时,评价员在快速陈述各自打分理由后,很容易便能达成共识。参考文献的完整列表和相关细节请参阅 Open Science Framework(https://osf.io/vw3t7/)。
图 4 展示了所有论文的 GRoLTS 总分,没有一篇论文接近最高分 21 分(均值±标准差:9.47±1.97 分,范围:5~15 分)。在检查了具体的 GRoLTS 条目后(图 5),我们发现一些条目在所有论文中几乎都报告过,而有些条目几乎从未报告过。我们将重点介绍最常报告和最少报告的前六个条目。


LGMM:潜变量增长混合模型;LCGA:潜类别增长分析;系统评价纳入文章数量
3.1 最常报告的六大条目
3.1.1 条目 14a
所有文献都提供了最终模型的估计平均轨迹图(条目 14a)。
3.1.2 条目 10
几乎所有文献(97%)都报告了使用的模型选择工具(条目 10),尤其是 BIC。约 2/3 文章还提到了其他模型选择工具:SS-BIC 占 60.5%,AIC 占 63.2%,LRT 占 65.8%,BLRT 占 60.5%。12 篇文献中提到模型拟合指数不一致,9 篇文献中 AIC 或 BIC 不断降低,10 篇文献中基于统计标准的最优模型没有意义,5 篇文献中最佳模型中的一个类别仅覆盖几个人。一些文献在模型选择工具方面没有提供简单的潜类别估计结果,13 篇文献仅根据理论而不是统计值来选择模型。
3.1.3 条目 5
95% 的文献报告了所用软件(条目 5),其中 Mplus 最为常用(29 篇论文),其次是 SAS Proc Traj(7 篇文献);30 篇文献(79%)还报告了所用软件版本。
3.1.4 条目 13
95% 的文献报告了熵水平(条目 13),其熵值的中位数为 0.85。
3.1.5 条目 3c
89.5% 的文献报告了如何处理缺失数据(条目 3c)。处理缺失数据最常用的方法为完整信息 ML(24 篇论文):但其中只有 1 项研究将这种方法与辅助变量相结合,3 项研究表明使用 MI 处理缺失数据。
3.1.6 条目 8
86% 的文献对协变量(条目 8)进行了清晰描述。15 篇文献使用了一步法,14 篇文献使用了标准三步法(即分别保留最可能的类别成分与分析数据),只有 3 篇文献使用了最近提出的 Vermunt 调整错分三步法。
3.2 最少报告的六大条目
3.2.1 条目 14b/14c
没有一篇 PTSS 文献具体展示了每个模型的轨迹图(条目 14b),仅有 5 篇文献(13%)报告了最终估计平均轨迹与观测到的个体轨迹(条目 14c)。但未报告此类轨迹图(条目 14b 和 14c)并不局限于 PTSS 研究,在 Piquero[6]和 Erosheva[44]等人的系统评价中,分别发现 87 篇中有 0 篇、200 篇中仅有 8 篇(4%)轨迹研究报告了轨迹图。
3.2.2 条目 6b
无一篇文献报告了组间方差-协方差矩阵结构(条目 6b)。虽然从统计学角度来看组间方差-协方差矩阵结构十分重要,但显然研究人员认为使用统计分析软件默认的设置即可。
3.2.3 条目 9
仅有 1 个研究报告了所用的确切起始值数量(条目 9)。
3.2.4 条目 16
仅有 2 篇文献中报告了公开程序语句文件(条目 16)。
3.2.5 条目 3a
仅有 2 篇文献报告了缺失数据机制(条目 3a),且机制为 MAR。
3.2.6 条目 2
仅有 3 篇文献报告了时间的变异性(条目 2)。
4 实例解读
本节以美国西北大学的 Lloyd-Jones 等开展的一个队列研究(coronary artery risk development in young adults study,CARDIA)[91]的纵向轨迹分析结果为例,利用 GRoLTS 清单进行评价,见表 3。

该文章于 2019 年 11 月发表在JAMA Cardiology,主要研究目的是探讨从幼年到成年的 20 年间的蛋白尿轨迹与超声心动图测量的心肌结构和功能的关系,采用尿白蛋白与肌酐比值(urine albumin-to-creatinine ratio,UACR)测量蛋白尿的水平。
总体而言,针对 GRoLTS 清单的 21 个条目,该文章有 8 个条目未报告,有 2 个条目报告不充分,评分为 12 分。虽然原作者在文章的方法学部分较为详细地描述了统计分析方法,但在结果部分的报告不太充分。
5 讨论
本研究所制订的 GRoLTS 是一种报告潜变量轨迹研究的工具(LGMM 或 LCGA)。研究者按照系统化的制订流程,遵循专家小组和高级研究人员的意见,确定了报告轨迹研究结果必要的关键条目。无论文献使用了何种统计模型,相应的报告规范都十分重要。其他报告规范,如随机对照试验报告的 CONSORT 清单,已被成功地推广和应用。有系统评价表明,使用诸如 CONSORT 之类的报告规范确实提高了报告质量[92]。在潜变量增长轨迹模型研究领域,报告规范是呈现模型结果时必须要遵守的组成部分,其结果解释在很大程度上与模型范式和估计的相关要素密切相关。
研究者建议所有潜变量增长轨迹模型都按照 GRoLTS 进行报告,以促进研究结果的合理呈现。需注意,GRoLTS 并非旨在衡量论文本身的质量,而是评估潜变量轨迹模型关键问题的报告质量。GRoLTS 条目全面而简洁,虽然 GRoLTS 内容较为详细,但很多条目仅需通过在论文中增添一些句子或使用在线补充材料即可满足。GRoLTS 可供准备提交稿件的作者使用,也可作为期刊审稿时对 LGMM 或 LCGA 研究的报告规范。由于 LGMM 或 LCGA 研究发展迅速且在不同领域中广泛应用,因此 GRoLTS 应该定期更新和修订,必要时应进行条目添加或删除。据研究者了解,轨迹方法在不同领域、不同类型的研究问题间存在较大差异。因此,报告轨迹结果时,还需考虑是否有 GRoLTS 未涵盖的其他要点。
研究者想以 Bauer[93](第 782 页)的一句话结束本文:“我试图解决的基本问题是这些模型(指 LGMM/LCGA 模型)是否有可能推动心理学的发展。我确信,如果这些模型继续按照目前的方式使用,那么答案显然是否定的……因此,我认为,除非分析背后的理论和数据都非常成熟,否则应避免直接使用 GMMs。否则,GMMs 在心理学研究中的应用可能偏离正确发展方向而走入死胡同。”
研究者同意 Bauer 的观点,因过去这些模型的报告方式既不透明也不一致,难以产生可靠的、可重复的结果。如果所有相关领域的研究人员都具有扎实的理论基础并形成使用 GRoLTS 规范报告的习惯,那么相信采用潜变量增长轨迹建模将会得到进一步发展,并成为应用统计学中最透明和最可重现的领域之一。
资助 van de Schoot R 和 Vermunt JK 分别得到了荷兰科学研究组织的资助:NWO-VIDI-452-14-006 和 NWO-VICI-453-10-002。
致谢 感谢在德尔菲研究不同阶段提供反馈意见的专家(按字母顺序):Heather Armstrong、Daniel Bauer、George Bonanno、Jan Boom、Patrick Curran、Isaac Galatzer-Levy、Christian Geiser、Kevin Grimm、Joop Hox、John Hipp、Loes Keijsers、Lynda 和 Dan King、Todd Little、Gitta Lubke、Peter Lugtig、Katherine Masyn、BengtMuthén、Daniel Nagin、Karen Nylund、Cecile Proust-Lima、Quinten Raaijmakers、Jost Reinecke、Paula Schnurr、Geert Smid。
注释
① 通过潜变量轨迹分析,我们采用基于个体的分析技术来估计随时间推移发展的未观测到的个体亚组潜分类[1]。为了估计轨迹潜分类,将传统潜变量增长模型[2]与混合成分[3]相结合。潜变量增长模型的基本思想是假设所有个体都来自同一个人群。当结合混合模型时,假设增长参数(截距、斜率等)在预先指定和未观测到的亚人群间是变化的。这可通过使用分类潜变量来实现,分类潜变量允许各组有单独的增长轨迹,并为每个(未观测到的)组产生单独的潜变量增长模型,每个模型都有其独特的一组增长参数。
② 当小规模的潜类别是研究目标时最好选择贝叶斯估计,其在小样本 LGMM 和 LCGA 模型中的表现优于 ML 估计[78]。
③ 类别区分度指的是不同潜类别在统计上或实质上的差异。类别区分度可基于多种不同的轨迹特征,包括具有明显区别的截距或斜率、不同的轨迹形状(线性增长 vs. 非线性增长)、不同的潜变量增长因子协方差结构等[78]。
参考文献
见原文。
估计潜变量轨迹的研究方法在社会学、行为学和生物医学领域越来越流行[1-3]。因其在混合模型框架下进行模型估计的过程中会涉及多个决策过程,选择不同的决策方案会在一定程度上影响研究结果,甚至可能产生不同结论。尽管目前潜变量轨迹分析十分受欢迎,并成为了许多领域内分析纵向数据的主流工具,但尚无潜变量轨迹模型结果的报告标准。这导致了论文中对潜变量轨迹分析结果的报告存在很大差异,而不充分或不完整报告潜变量轨迹分析结果会妨碍对结果的解读和批判性评价,并且影响不同研究间结果的横向比较。
本文介绍潜变量轨迹研究报告规范(guidelines for reporting on latent trajectory studies,GRoLTS)。GRoLTS 的最终目标是提高潜变量轨迹研究报告的一致性,使研究结果可完全透明(高质量)地呈现,并且可用于研究间的比较、重复、系统评价和 Meta 分析等。在本文中,我们将首先描述 GRoLTS 的制订过程,即采用系统化的制订过程,通过 4 轮德尔菲法,由专家小组确定报告轨迹研究结果必要的关键条目;随后详细描述每一个关键条目内容;最后,介绍利用 GRoLTS 评估 38 篇使用潜变量轨迹分析探讨创伤后应激症状(posttraumatic stress symptoms,PTSS)变化研究的报告情况。更多相关信息请参阅 Open Science Framework(https://osf.io/vw3t7/),包括:① 德尔菲研究的全部细节;② 可用于教学的部分条目的补充信息;③ 筛选 38 篇 PTSS 论文的数据集。
1 GRoLTS 的制订
GRoLTS 的制订过程包括以下阶段[4]:① 初步确定主题;② 形成条目;③ 评估表面效度;④ 评估一致性和结构效度的现场试验(field trials);⑤ 制订最终的精炼条目清单。
指南制订之初,制订小组明确了 GRoLTS 需符合以下基本要求:① 适用对象为探索性使用潜变量轨迹分析来回答实质研究问题的论文;② 总结报告潜变量轨迹分析结果的要求;③ 确保不同背景的研究人员能够一致、可靠地使用此报告规范进行报告;④ 条目简明扼要易于完成,同时应包括确保结果可重复性和透明性的所有方面。
在制订阶段,制订小组共邀请 27 名专家(参见致谢中的专家名单),并向他们提供了 GRoLTS 的制订目标和要求,通过前 3 轮德尔菲法和第 4 轮现场试验评估所有条目的表面效度。制订小组采用德尔菲法在专家小组中就 GRoLTS 应包括哪些标准及具体条目的措辞达成一致。以上每个步骤的具体细节,包括 GRoLTS 的所有前期版本请参阅 Open Science Framework(https://osf.io/vw3t7/)。
2 GRoLTS 条目和解读
GRoLTS 包含 16 个条目(部分含子条目,表 1)。每个条目评分为 0(未报告)或 1(已报告)。建议在如下情况使用 GRoLTS:① 研究人员准备提交论文前;② 编辑、审稿人和授权专家核查论文是否报告了所有基本要素;③ 老师向学生讲解潜变量轨迹分析结果中哪些要素是重要的。我们将对每一个条目(特别是复杂的条目)进行解读,并对文献中讨论内容进行概述。关于条目 1、2、7 和 14 的更详细信息请参阅 Open Science Framework(https://osf.io/vw3t7/)。

条目 1:是否报告统计模型中所使用的时间度量?
在任何类型的增长模型中,时间编码对结果解读都具有重要意义。如 Eggleston 等[5]研究所示,随访时间长度会影响潜变量轨迹的数量,形状-时间越长,轨迹越多。此外,Piquero[6]对基于犯罪数据的潜变量增长混合模型(latent growth mixture modeling,LGMM)和潜类别增长分析(latent class growth analysis,LCGA)进行系统评价后发现,时间点的间隔也会影响轨迹数量。因此,不仅要透明地报告时间度量,更要正确地设定时间点间隔。时间度量的设定应该在分析开始前依据研究设计确定,而非根据模型的拟合程度或增长参数的显著性。关于时间度量更深入的讨论请参阅 Open Science Framework(https://osf.io/vw3t7/),及 Biesanz 等[7]或 Duncan 等[8]的研究。
条目 2:是否提供单个随访的均数和标准差?
在纵向研究中,由于组织安排的原因,对不同研究对象进行多次数据采集时,不同个体间的采集时间间隔必然存在一些差异。这种差异被称为时间-非结构化数据或随访内变异。与之相对应的是时间-结构化研究,即所有研究对象的数据均以相同的时间间隔采集。在某种程度上,绝大多数纵向数据是时间-非结构化的。也就是说,并非所有研究对象都在相同的时间点采集数据,请参阅 Palardy 等[9]的实例。然而,时间-非结构化数据往往会被研究者忽略时间的非结构化特性,而按照时间-结构化数据进行分析,这可能严重曲解分析结果真实性。Singer 等[10]发现,当使用预期年龄而非实际年龄作为时间度量时,会高估线性斜率、截距和线性斜率的方差。Mehta 等[11]、Hertzog 等[12]及其他几个模拟研究[13,14]也得出相似的结论。我们建议,在每个数据集中纳入一个时间变量,用于记录不同观测点间的确切时间间隔,以便能够在方法部分计算并报告时间间隔的变异程度。因此,可使用随个体观测时间变化的随机因子载荷替代固定因子载荷(更多细节请参阅 Coulombe 等[14])。更详细的解释和图解说明请参阅 Open Science Framework(https://osf.io/vw3t7/)。
条目 3a:是否报告缺失数据机制?
大多数纵向研究存在缺失数据或研究对象失访问题。在描述缺失数据和失访情况时,应首先报告数据缺失机制。数据缺失机制一般可分为三种类型[15]:① 完全随机缺失(missing completely at random,MCAR),即所有缺失数据的发生不依赖于所有观测到或未观测到的变量;② 随机缺失(missing at random,MAR),即缺失数据可能依赖于观测到的变量,但不依赖于未观测到的变量;③ 非随机缺失(missing not at random,MNAR),即缺失数据依赖于未观测到的变量。我们无法判断数据缺失属于 MAR 还是 MNAR(因无法检验),只能尽量保证数据的缺失符合 MAR 假设。统计模型如 LGMM/LCGA 的假设均基于 MAR。因为对所有研究对象均进行了多次测量,只要失访不是以某种特定方式系统性地发生,在纵向队列中就可假定该失访满足 MAR 情况(即这些个体的观测变量得分的缺失,可假定是随机的)。
条目 3b:是否描述与失访或缺失数据相关的变量?
正如 Asendorpf 等[16]的研究所示,对于纵向研究,即使每一轮随访中微小且不显著的选择性退出,效应也会在整个随访过程中逐渐累积,最终导致结果产生越来越大的偏倚[17]。因此,研究者应比较退出与完成研究的对象的相关特征。与失访或缺失相关的变量(也称辅助变量)可作为模型中的协变量(服从 MAR 假设下拟合)或可在多重填补(multiple imputation,MI)模型中使用。使用 MI 的优点是可将缺失数据的处理与目标模型区分开来。
条目 3c:是否描述分析过程中缺失数据的处理?
关于缺失数据报告的第三个问题是在分析过程中如何处理缺失数据。在许多论文中都引用了 Peeters 等[18]对不同填补模型的比较。目前,处理缺失数据较为普遍和灵活的方法是利用链式方程的多重填补(也称预测均值匹配)[19,20]。
条目 4:是否纳入观测变量分布类型的信息?
潜变量轨迹分析中的因变量可存在不同形式。通常假设变量是连续型且在组内呈正态分布,但实际上并非总是如此。因变量可能不是连续型变量,而是分类变量(如,具有五个应答类别的李克特式量表)、计数资料(如,计数某人的症状数量)或零膨胀型(如,80%~90%的研究对象得分为 0)。正如 Vermunt[21]所述,假设组内因变量呈正态分布至关重要,当假设因变量在组内呈多项分布(非正态分布)时,建议不使用连续型变量混合模型,应转而使用离散型变量混合模型。Bauer 等[22-24]研究发现,当变量分布的假设不成立时(即当实际的结局分布为非正态分布时),即使结果只呈现一组轨迹[25]也更倾向于选用多轨迹群组模型,只要在统计分析软件中设定研究结局的类型,潜变量轨迹框架就可轻松处理该类变量,并避免过度提取潜类别。另一种方法是使用潜变量[26],即通过使用单个条目分数而非总分来考量结局的测量结构。如果模型中的潜变量有意义,那么潜变量和调查条目的测量结构应该随时间稳定,即测量结构不随时间变化而变化。以上是一个需要检验的重要假设,又被称为测量不变性[27],虽然该假设并不总是成立,但该假设会对结果产生较大影响[28]。
条目 5:是否提及统计分析软件?
目前可用于估计潜变量轨迹的程序包有以下几种:LatentGold[29]、Mplus[30]、SAS Proc Traj[31]、Stata GLLAMM[32]、R 程序包 LCMM[33]、R 程序包 OpenMx[34]等。这些程序包指定默认模型的方法均有所不同。例如,Mplus 的默认设置是在组间限制协方差和(残差)方差。相反,在 LatentGold 中则使用先验残差进行后验方法估计,以防止残差变为 0。出于可重复性的考虑,提供使用的软件及版本信息至关重要(因为版本更新可能涉及到后台算法调整)。在下一个条目中,我们会进一步讨论方差-协方差矩阵的设定。
条目 6a:是否考虑并清晰记录处理组内异质性的方式(如 LCGA 或 LGMM)?
在建立潜变量轨迹模型时,为精确地指定模型需要做许多选择。处理组内异质性的第一种方法,涉及潜类别内增长参数的方差。有两种潜变量增长模型可解释未观测到的群体。如果在潜变量轨迹内估计增长参数的方差,则这种建模灵活性称为 LGMM[1,35-38]。如果假设组内所有个体增长轨迹是同质的,且假设组内增长因子的方差和协方差估计值固定为 0,则称为 LCGA[39-42]。Groudace[43]、Erosheva[44]、Feldman[45]、Jung[46],Kreuter[47]和 Twisk 等[48]很好地总结了 LGMM 和 LCGA 间的区别。
Nagin[39,41]运用理论方法并引入潜变量轨迹模型的两个概念:① 作为群体异质性连续但未知分布的近似值;② 作为具体的轨迹,可视为非常重要的实体。在第二种概念中,该轨迹有描述性名称,并作为不同的实体进行讨论。Erosheva 等[49]的系统评价表明,大多数研究人员采用第二种方法(第 325~326 页),但能够真正发现不同轨迹组别的情况其实十分罕见。正如参与本指南解读的一位专家所说:“我还没遇到过一种能够明确表述的发展理论,它能先验地参数化增长因子组内方差-协方差的结构。”Twisk 等[48]认为应从可行性角度出发选择研究方法。由于 LGMM 算法较难,研究人员常选用 LCGA。但实际上 LGMM 更灵活,因为该方法考虑了前面提到的组内变异带来的异质性问题,但这种灵活性也带来了一定的问题:如需要更强的计算能力、需要更大样本量、可能引发收敛问题等。既往在专业期刊如Infant Child Development上,已对使用何种参数化方法这一问题进行了激烈讨论[25,37,50,51]。本文对这一问题不再赘述,只强调应在论文中讨论最终模型的选择。理想情况下,应采用两种模型拟合数据并进行比较。提出此建议的原因是实际结果会因模型选择的不同而异,因此检查每种方法对于理解其对最终模型解释的影响非常重要。
条目 6b:是否考虑并清晰记录处理组间方差-协方差矩阵结构差异的方式?
除 LGCA 和 LGMM 间的差异外,第二个问题是约束误差结构(相较于不同类别中自由估计)。约束误差结构与不同类别间增长因子方差-协方差矩阵的异质性(相较于同质性)相互影响。也就是说,潜类别间的残差和方差-协方差矩阵是相同的,还是不同的?以下原因可解释为什么残差在潜类别间保持不变或各潜类别具有特定的残差:潜类别间残差相同是以偏离增长曲线的变异在组间没有差异为假设,而潜类别间残差不同则是以某些组(这里指潜类别)偏离增长曲线的变异要大于其他组为假设。组内特定的残差可能更符合实际情况,然而由于模型包含多项参数,因此该情况可能引发估计问题。此外,若使用连续数据模型分析离散数据,则会出现残差为零的情况。我们建议研究人员应基于已知、具体的信息及分析过程中出现的估算问题选择相应模型。
是否约束潜类别间方差-协方差矩阵更需要考虑现实问题。虽然每个潜类别都允许存在特定的方差-协方差矩阵,但由于模型需要估计大量参数,因此需要更大的样本量来避免收敛问题。对于较小样本量的解决方法是分别估计方差-协方差矩阵,研究人员多采用约束方差-协方差矩阵来简化模型(或处理局部极大值的误差信息)。无论采用何种方法设定组间方差-协方差矩阵,研究人员都应在论文中明确报告,因为不同设定均会对研究结论产生实质性影响。具体来说,研究人员应尽可能清楚地列出所有使用的研究方法及原因(如,“理论表明增长因子的变异在亚组间是恒定的,因此我们认为矩阵相同”等)。其次,研究人员应根据所作假设解释结果。需注意的是,若重新定义方差-协方差矩阵,结果也可能随之改变。例如,如果协方差矩阵改变(如各类别间自由估计),则潜类别的估计结果也会随之改变并产生完全不同的解释。
条目 7:是否描述轨迹的形状和函数形式的设定?
令趋势线变化的主要方法之一是指定用于捕获随时间变化的增长函数。基于多项式函数的增长模型通常用于估计线性、二次、三次等变化[38]。然而,增长不需要通过多项式函数估计。许多非线性参数模型也常用于估计增长,例如 logistic、Gompertz 和 Richards 增长曲线[52]。平滑函数的半参数模型,如广义加性模型,同样可用于估计增长[53];此外,还可使用分段模型[9,54]。我们建议不仅要报告每条轨迹在最终模型中的形状,还需要根据指定函数验证模型:例如,比较线性增长模型与包含二次效应模型的结果。关于不同形式的增长函数是如何影响增长参数解释的问题,请参阅 Open Science Framework(https://osf.io/vw3t7/)。
条目 8:如果纳入协变量,分析是否仍可重复?
预测因素(或协变量)可在 3 个不同水平添加到模型中(图 1):① 在因变量水平上作为依时或非依时协变量纳入,以控制在特定时间点的变异;② 在增长参数水平上纳入,以寻找不能通过协变量个体差异(如年龄、膳食、社会经济状况)解释的潜类别;③ 在自变量水平纳入,以预测潜分组。如果协变量被指定为模型的一部分,那么该模型通常被称为条件模型;而非条件模型是指在忽略协变量的情况下探索潜类别数量。需注意的是,无论预测因素出现在模型中的哪个位置,它们既可是直接观测到的变量也可是潜变量。目前有多种方法可用于预测潜分组,我们将在下文逐一介绍。

该模型包括 1~8 个类别(C=1,…,8),8 个重复测量变量(创伤后应激障碍,posttraumatic stress disorder,PTSD 等),3 个增长参数(截距、斜率、二次项)和可添加协变量的 3 个位置。
一步法:在联合模型中可纳入潜分组的预测因素,该模型可同时估计组别和预测潜分组。一步法有两个缺点:第一,纳入的预测因素可能会不适当地修改潜类别结构的构成。理论上,模型中的任何改动都会影响潜类别下个体的划分。由于协变量会影响潜类别的形成,所以在模型中直接加入预测因素会导致结果的缺陷。此外,因为潜变量是通过测量指示变量获得,直接加入预测因素可能使潜类别失去意义(第 329 页)[55]。La Greca 等[56]详细描述了这种效应(第 360 页)。在这种特定情况下,应重新考虑潜类别数量,而不是继续采用在没有纳入协变量的情况下所确定的类别数量。无论改变潜类别估计结果的效应是否对研究人员有意义,对于在模型中纳入或不纳入协变量的标准仍不明确;参阅 Palardy 等[9]的研究,其根据所需的潜类别数量比较了有、无协变量模型的区别。总之,希望研究人员不要将选择主要预测因素的问题与发现潜类别数量的问题混为一谈。第二,受影响的还有一个称为熵的指数(另见条目 13)。熵的作用是评价将个体划入各潜类别这一分类过程的准确性,反映了根据个体轨迹和协变量值预测潜分组的水平。若熵值接近 1.0,则认为进行了适当的分类;若熵值接近 0,则认为分类效果较差。采用人工纳入预测因素的一步法会人为地高估熵指数,导致过于夸大分类的可信度。而且,熵本身的含义也在变化。
标准三步法:保留最合适的潜分组并分别分析数据 按照该策略,首先在没有潜分组预测因素的情况下确定潜类别的数量(步骤 1)。随后保留最合适的潜分组与原始数据合并(步骤 2),并采用多项式回归分析将其与潜变量轨迹模型分开分析(步骤 3)。Andersen 等[57](补充材料,第 2 页)和 Pietrzak 等[20](第 208 页)清晰描述了该方法。尽管该方法采用了最合适的潜分组策略来解决了一步法存在的各种问题,但它忽略了潜类别分配的不确定性。换句话说,该策略假设个体在潜类别分配中不存在错分。其结果是,基于协变量的预测可能低估真实效应。但是可通过熵来评估低估程度:熵值越高,错分越少,潜分组预测结果偏倚越小[58]。保留最合适的潜分组策略要求熵值足够高,且作者承认衰减效应。
使用“伪分类”方法的三步法:由 Wang 等[59]提出的方法是:首先估计潜类别模型,然后基于从模型中获得的后验分布采用 MI 处理潜类别变量,随后使用由 Rubin 等[60,61]提出的 MI 技术,分析填补的潜类别变量和协变量。Peutere 等[62](第 17 页)详细地描述了该策略。与前文提及的其他方法相同,若使用伪分类方法,研究人员应进行明确地描述,并且说明潜类别变量是通过 MI 获得。
调整错分三步法:该方法由 Vermunt[3,63]在 Bolck 等[64,65]的思想上发展而来。与前文中的三步法不同,该方法考虑了第三步分析中潜类别分配下的错分问题,即估计所得潜分组并非真实的潜分组这一问题。实际上,估计潜类别模型,只是将步骤 2 中指定的潜分组作为单一指示变量,根据步骤 1 和 2 的估计值确定错分概率(第 330 页)[55]。该方法允许协变量在标准潜类别模型中预测潜分组,但也可通过潜分组预测远端结局[66]。
调整错分三步法与前文中提及的三步法具有相同的优点,即可将构建对目标响应变量有意义的潜变量轨迹模型与构建探究潜类别与外部变量关系的模型区分开来。但需注意,该方法同样存在前提假设,除了要求外部变量和潜类别指示变量相互独立之外,当外部变量为远端结局时,还需正确设定远端结局的组间分布。请注意,尽管可放宽条件独立假设,但该假设同样适用于一步法。针对远端结局组间分布,Bakk 等[66]表示,即使偏离分布假设,BCH 变异[64]仍然稳定,但最大似然(maximum likelihood,ML)变异却并不稳定。
总之,可在 LGMM 中的 3 个不同水平纳入协变量(图 1),并且当分析目标是预测潜分组时,至少有 4 种纳入协变量的方法,同时也是纳入协变量的常见原因。由于纳入协变量的方式和方法对模型结果解释有很大影响,在没有明确推荐方法的情况下,作者对上述过程进行完全透明的报告极为重要。
条目 9:是否报告随机起始值数量和最终迭代次数?
若使用 ML 估计潜变量轨迹模型,了解最终的潜类别估计结果是否已收敛到 ML 分布的最大值而不是所谓的局部最大值十分重要。因为 ML 函数有时不仅只有一个最大值,还可能存在几个最大值,这种情况需要根据模型参数的起始值找到“真实”(即绝对)的最大值。因基于局部最大值(相较于真实最大值)的估计结果可能与最优结果有很大不同,所以强烈建议基于多个不同起始值重新运行模型,以确保找到最优解。在统计学文献中已经非常详细地讨论了在估计混合模型时使用多组起始值的重要性。例如,Hipp 等[67]详细讨论了不恰当或起始值过少对结果的影响。研究发现,当起始值错误时估计结果可能有实质性的错误。每个估计的参数都有相对应的较为适当的参数空间,他们建议根据这些空间“明智地”确定每个参数的起始值。参数的起始值可随机生成,但是在混合建模环境中,通常基于某些理论选择这些参数。Finch 等[68]讨论了基于某理论在潜类别分析中选择阈值起始值以避免在错误的参数空间中探索估计算法的问题。此外,为充分探索参数空间并避免仅收敛到局部最大值,建议将每个参数的起始值数量增加到至少 50 到 100 组[67]。当研究人员基于某理论或既往研究设定起始值时,这些起始值集合包含了既往相关起始值的随机波动,可确保所有集合覆盖了可能的参数空间。
条目 10:是否从统计的角度描述模型比较(和选择)工具?
多项统计标准可用于判断模型对数据的拟合程度,即应当划分出多少潜类别。Nylund 等[69]的大样本模拟研究显示,贝叶斯信息准则(Bayesian information criterion,BIC;Schwarz[70])的表现优于其他模型选择工具如 LGMMs 背景下的 Akaike 信息准则(Akaike information criterion,AIC)[71]。两者都是基于对数似然把参数数量作为模型复杂性的惩罚项,以此来评估相对模型充分性的模型选择工具。从轨迹数量的角度来看,具有最小 BIC 值的模型最优(参见图 2 中模型 2 的结果)。BIC 目前已有许多衍生形式,其中样本量调整的 BIC 有时也用于潜变量轨迹研究。

需注意,带有一个星号的模型表示随机启动次数增加到 1 000,带有两个星号的模型没有达到收敛。
由 Lo 等[72]提出的 Lo-Mendel-Rubin 似然比检验(Lo-Mendel-Rubin-likelihood ratio test,LMR-LRT)是另一种常用的模型选择工具。LMR-LRT 检验k−1 个类别是否优于k个类别,若检验结果显著,则表明拒绝k−1 个类别的零假设,接受至少k个类别。但 Jeffries[73](第 901 页)指出,“该方法还未得到证实,模拟研究表明其结果可能不正确。”随后,Nylund 等[69](第 538 页)回应,最初在 Lo 等[72]的早期模拟研究表明,尽管如 Jeffries 所述,可能存在分析不一致性,但 LMR-LRT 仍可作为一种用于类别算法的有效检验工具。鉴于既往文献中潜在的不一致,我们建议研究人员不要仅根据 LMR-LRT 工具确定类别数量。最近,有模拟研究证明 bootstrap 似然比检验(bootstrap likelihood ratio test,BLRT)[74]是选择最优类别数量的良好指标[69],当将其应用于经验数据时总会得到显著结果。
尽管就评估拟合程度的方法仍有诸多争议,但专家小组已经达成共识,推荐使用 BIC。当模型选择工具和熵指数所确定的最优维度很大、各工具评估结果相互冲突或与理论冲突时,研究人员在实际操作中常将潜变量轨迹的数量减少至理论上有意义的数量。例如,研究人员通常会删除只有微小变异的轨迹(如,Galatzer-Levy 等[75])或拒绝有收敛问题的模型(如,Orcutt 等[76])。
总之,我们建议研究人员如实描述选择最终模型的过程。基于现有文献,我们建议选择 BIC 作为模型比较工具,但也建议研究人员使用多个工具来避免“选择性失明”(即只看到有利于结论的证据,忽略不利证据)。请参阅表 2 和图 2,了解如何选择并使用模型比较工具(请注意,表 2 采用模拟数据用以举例说明)。如类似表 2 情况,拟合指数在最优类别数量上不一致,应告知这一结果。作者应报告所有检验的模型,并最好结合理论对最终所选模型举例说明(另见条目 14)。值得注意的是,有研究提出了许多可供选择的指标[59]且该领域正迅速发展[77],因此研究人员应该及时关注该领域的新进展。

条目 11:是否报告拟合模型总数,是否包括仅含一个类别的模型?
轨迹分析的目的是找到描述数据集变异的潜类别的最优数量。为了找到类别最优数量,我们建议采用先从仅含一个类别开始的前进建模法,这是拟合效果最好的非混合潜变量增长模型。该模型简单地假设群体中不存在亚组,随着时间的推移所有个体或多或少遵循相同的轨迹。研究人员通常不会报告仅含一个类别的结果,但往往非混合模型能更好地拟合数据。图 2 中模型 1 所示,假如不报告仅含一个类别的结果,根据 BIC 的值会选择含三个类别的模型。但当报告仅含一个类别的结果时,BIC 提示一类别为最优模型。在这种情况下,结论则应为群体中不存在潜类别(即一类别为最优)。在拟合一类别模型后,应该逐步增加类别以确定哪个模型拟合最好。当模型拟合指数不再优化时也不应停止此过程,应该继续拟合至少一或两个额外的模型,以确保所有可能的模型都纳入了分析。
条目 12:是否报告每个模型下每组所含个体数量?
确定最终类别数量时不应仅基于统计标准。例如,统计上的最优解轨迹可能只含有非常少的研究对象。当两个群组(即潜类别)的规模明显不同时(如一个群组远大于另一个),大的群组会覆盖小的群组,从而导致对群组规模和相应增长轨迹的错误估计[78]。此外,由于缺乏足够的实质性信息来识别群组,模型可能无法正确识别样本量较小的群组。在此情况下,轨迹的识别可能基于异常值或其他随机波动,而不是真实的群组[22,36,79]。因此,研究人员应提供每个模型中各潜类别下样本量的相关信息(具体操作过程请参阅表 2)。
条目 13:如果轨迹分析的目的是对个体进行分类,是否报告熵?
对个体进行分类是潜变量轨迹研究的常见分析目的,在这种情况下,研究人员必须报告分类的性能。评价分类性能的工具之一是相对熵值,该值越高表示个体归类越准确。也就是说,模型能够清晰地对特定类别中的个体进行分类,并且不同类别间存在足够的区分度[78]。相对熵也被称为衍生潜类别的“模糊性”度量[80,81]。当每个研究对象的所有后验概率相等时,相对熵值为 0(即在三个潜类别下,所有参与者被分到其中一个潜类别的后验概率为 0.33)。当每个参与者仅完全适合一个潜类别时相对熵为最大值 1,表示潜类别间能完全区分开来。因此,当熵值过低时需要小心,这提示研究对象没有很好地被分类或没有被分配到合适的潜类别。综上,Celeux 等[58]提出,相对熵可被视为评估潜变量轨迹模型划分数据效能的度量,Greenbaum 等[82](第 233 页)对此进行了更为完善的解释。然而,相对熵并不适用于确定潜类别数量[80,83,84]。Ram 等[85]建议,在多个模型的拟合指数(如,BIC)近似时,较高熵才对模型选择有意义。尽管如此,我们仍建议作者报告熵值(见表 2)或像 Greenbaum 等[82](第 233 页)一样报告每个模型中的错分数量。
条目 14a:是否报告最终结果的估计平均轨迹图?
条目 14b:是否报告每个模型的估计平均轨迹图?
如前所述,许多研究人员单独使用实质性论据或结合模型选择工具来决定潜类别数量。检查轨迹图对评估不同潜类别估计结果下的模型效能十分有帮助。需要报告的第一类图为平均轨迹,不仅局限于最终模型,而应覆盖所研究的每个模型(如在建模和评估分析结果阶段均应进行模型比较)。我们在 https://osf.io/vw3t7/中提供了一个示例。因可能有大量模型需要拟合,报告全部轨迹图存在一定挑战性,但如果仅根据理论论证来决定类别数量,则必须报告所有估计结果的轨迹图。需注意的是,若期刊不允许在正文中呈现较多的图,可将该信息作为在线补充材料。我们认为,必须提供完整的轨迹图信息以便其他研究者可重现最终分类数量。
条目 14c:是否报告最终模型的估计均值和每个潜类别下实际观测到的个体轨迹图?
除报告每个模型的估计平均轨迹外,结合实际观测到的个体轨迹分析最终估计平均轨迹也十分重要。Erosheva 等[44]提出,通过上述图示可直观地看到潜变量群体轨迹对个体差异的解释程度,及不同组别下实际观测到的个体重叠程度。如图 3 所示,所有个体可能都遵循平均轨迹且可能采用了 LCGA(图 3a)。需注意,尽管该图展示了个体轨迹的变化,但随时间推移它们基本上都遵循相同的增长模式。但图 3b 中个体轨迹差异较大,平均轨迹并未反映数据的真实情况。图 3c 中,实际上没有一个个体轨迹遵循平均轨迹,那么即使有足够的拟合统计量,对结果的可解释性也存在一定质疑。图 3d 的情况更不理想,因为其中的二次效应完全可能是缺失数据所致。

条目 15:是否用数字描述了最终潜类别模型的特征?
不仅需要呈现各模型下的潜变量轨迹图,还需要呈现最终模型和每个模型各项参数的表格。具体包括:估计均值、标准差、P值、可信区间及用于估计每个模型参数的样本量(注意任何缺失数据)。表格中的所有信息均应有助于读者解读结果,即使数据结果未在正文中完整报告,读者仍应可获得完整的模型结果。包含全部模型结果的表格还有助于实现结果报告的充分透明和完整重复。
条目 16:是否提供程序语句文件?
人们越来越意识到公开和透明的研究对维持和提高科学质量至关重要[86-90]。实现研究透明化的方式之一是共享数据、程序语句和其他支持材料(请参阅 Open Science Framework,https://osf.io/vw3t7/)。这些共享内容是所有论文的重要组成部分,它们让其他研究人员可重现或改变论文中所报告的数据分析。此外,它们可使其他研究人员发现分析中的潜在错误,甚至是假的结果。公开程序语句文件是迈向完全公开数据和其他材料的第一步。多种方法可为读者提供语句文件:如以附录的形式呈现、通过在线补充材料或在线数据存储库来提供。语句信息最好不要仅在个人网站上展示(因为个人网站不是永久性的,可能会在某天关闭)。此外,一些新工具可助力语句的可及性。例如由 Center for Open Science 开发的在线协作工具,研究团队可通过该工具将其研究材料的任一部分公开,以支持开放交流。Center for Open Science 还创造了一些“徽章”来证明论文满足了开放材料要求。这些发展提示程序语句文件不应远离读者。我们的文件可在 Open Science Framework(https://osf.io/vw3t7/)上找到。
3 GRoLTS 在潜变量轨迹研究系统评价中的应用
为评估 GRoLTS 的一致性、有效性和可用性,我们利用 38 篇使用潜变量轨迹分析(即 LGMM 或 LCGA)来评估创伤事件后 PTSS 变化的研究对该报告规范进行了测试。每篇文章的平均评估所需时间为 20 分钟,每篇论文评价由两名评价员独立进行。当得分相互矛盾时,评价员在快速陈述各自打分理由后,很容易便能达成共识。参考文献的完整列表和相关细节请参阅 Open Science Framework(https://osf.io/vw3t7/)。
图 4 展示了所有论文的 GRoLTS 总分,没有一篇论文接近最高分 21 分(均值±标准差:9.47±1.97 分,范围:5~15 分)。在检查了具体的 GRoLTS 条目后(图 5),我们发现一些条目在所有论文中几乎都报告过,而有些条目几乎从未报告过。我们将重点介绍最常报告和最少报告的前六个条目。


LGMM:潜变量增长混合模型;LCGA:潜类别增长分析;系统评价纳入文章数量
3.1 最常报告的六大条目
3.1.1 条目 14a
所有文献都提供了最终模型的估计平均轨迹图(条目 14a)。
3.1.2 条目 10
几乎所有文献(97%)都报告了使用的模型选择工具(条目 10),尤其是 BIC。约 2/3 文章还提到了其他模型选择工具:SS-BIC 占 60.5%,AIC 占 63.2%,LRT 占 65.8%,BLRT 占 60.5%。12 篇文献中提到模型拟合指数不一致,9 篇文献中 AIC 或 BIC 不断降低,10 篇文献中基于统计标准的最优模型没有意义,5 篇文献中最佳模型中的一个类别仅覆盖几个人。一些文献在模型选择工具方面没有提供简单的潜类别估计结果,13 篇文献仅根据理论而不是统计值来选择模型。
3.1.3 条目 5
95% 的文献报告了所用软件(条目 5),其中 Mplus 最为常用(29 篇论文),其次是 SAS Proc Traj(7 篇文献);30 篇文献(79%)还报告了所用软件版本。
3.1.4 条目 13
95% 的文献报告了熵水平(条目 13),其熵值的中位数为 0.85。
3.1.5 条目 3c
89.5% 的文献报告了如何处理缺失数据(条目 3c)。处理缺失数据最常用的方法为完整信息 ML(24 篇论文):但其中只有 1 项研究将这种方法与辅助变量相结合,3 项研究表明使用 MI 处理缺失数据。
3.1.6 条目 8
86% 的文献对协变量(条目 8)进行了清晰描述。15 篇文献使用了一步法,14 篇文献使用了标准三步法(即分别保留最可能的类别成分与分析数据),只有 3 篇文献使用了最近提出的 Vermunt 调整错分三步法。
3.2 最少报告的六大条目
3.2.1 条目 14b/14c
没有一篇 PTSS 文献具体展示了每个模型的轨迹图(条目 14b),仅有 5 篇文献(13%)报告了最终估计平均轨迹与观测到的个体轨迹(条目 14c)。但未报告此类轨迹图(条目 14b 和 14c)并不局限于 PTSS 研究,在 Piquero[6]和 Erosheva[44]等人的系统评价中,分别发现 87 篇中有 0 篇、200 篇中仅有 8 篇(4%)轨迹研究报告了轨迹图。
3.2.2 条目 6b
无一篇文献报告了组间方差-协方差矩阵结构(条目 6b)。虽然从统计学角度来看组间方差-协方差矩阵结构十分重要,但显然研究人员认为使用统计分析软件默认的设置即可。
3.2.3 条目 9
仅有 1 个研究报告了所用的确切起始值数量(条目 9)。
3.2.4 条目 16
仅有 2 篇文献中报告了公开程序语句文件(条目 16)。
3.2.5 条目 3a
仅有 2 篇文献报告了缺失数据机制(条目 3a),且机制为 MAR。
3.2.6 条目 2
仅有 3 篇文献报告了时间的变异性(条目 2)。
4 实例解读
本节以美国西北大学的 Lloyd-Jones 等开展的一个队列研究(coronary artery risk development in young adults study,CARDIA)[91]的纵向轨迹分析结果为例,利用 GRoLTS 清单进行评价,见表 3。

该文章于 2019 年 11 月发表在JAMA Cardiology,主要研究目的是探讨从幼年到成年的 20 年间的蛋白尿轨迹与超声心动图测量的心肌结构和功能的关系,采用尿白蛋白与肌酐比值(urine albumin-to-creatinine ratio,UACR)测量蛋白尿的水平。
总体而言,针对 GRoLTS 清单的 21 个条目,该文章有 8 个条目未报告,有 2 个条目报告不充分,评分为 12 分。虽然原作者在文章的方法学部分较为详细地描述了统计分析方法,但在结果部分的报告不太充分。
5 讨论
本研究所制订的 GRoLTS 是一种报告潜变量轨迹研究的工具(LGMM 或 LCGA)。研究者按照系统化的制订流程,遵循专家小组和高级研究人员的意见,确定了报告轨迹研究结果必要的关键条目。无论文献使用了何种统计模型,相应的报告规范都十分重要。其他报告规范,如随机对照试验报告的 CONSORT 清单,已被成功地推广和应用。有系统评价表明,使用诸如 CONSORT 之类的报告规范确实提高了报告质量[92]。在潜变量增长轨迹模型研究领域,报告规范是呈现模型结果时必须要遵守的组成部分,其结果解释在很大程度上与模型范式和估计的相关要素密切相关。
研究者建议所有潜变量增长轨迹模型都按照 GRoLTS 进行报告,以促进研究结果的合理呈现。需注意,GRoLTS 并非旨在衡量论文本身的质量,而是评估潜变量轨迹模型关键问题的报告质量。GRoLTS 条目全面而简洁,虽然 GRoLTS 内容较为详细,但很多条目仅需通过在论文中增添一些句子或使用在线补充材料即可满足。GRoLTS 可供准备提交稿件的作者使用,也可作为期刊审稿时对 LGMM 或 LCGA 研究的报告规范。由于 LGMM 或 LCGA 研究发展迅速且在不同领域中广泛应用,因此 GRoLTS 应该定期更新和修订,必要时应进行条目添加或删除。据研究者了解,轨迹方法在不同领域、不同类型的研究问题间存在较大差异。因此,报告轨迹结果时,还需考虑是否有 GRoLTS 未涵盖的其他要点。
研究者想以 Bauer[93](第 782 页)的一句话结束本文:“我试图解决的基本问题是这些模型(指 LGMM/LCGA 模型)是否有可能推动心理学的发展。我确信,如果这些模型继续按照目前的方式使用,那么答案显然是否定的……因此,我认为,除非分析背后的理论和数据都非常成熟,否则应避免直接使用 GMMs。否则,GMMs 在心理学研究中的应用可能偏离正确发展方向而走入死胡同。”
研究者同意 Bauer 的观点,因过去这些模型的报告方式既不透明也不一致,难以产生可靠的、可重复的结果。如果所有相关领域的研究人员都具有扎实的理论基础并形成使用 GRoLTS 规范报告的习惯,那么相信采用潜变量增长轨迹建模将会得到进一步发展,并成为应用统计学中最透明和最可重现的领域之一。
资助 van de Schoot R 和 Vermunt JK 分别得到了荷兰科学研究组织的资助:NWO-VIDI-452-14-006 和 NWO-VICI-453-10-002。
致谢 感谢在德尔菲研究不同阶段提供反馈意见的专家(按字母顺序):Heather Armstrong、Daniel Bauer、George Bonanno、Jan Boom、Patrick Curran、Isaac Galatzer-Levy、Christian Geiser、Kevin Grimm、Joop Hox、John Hipp、Loes Keijsers、Lynda 和 Dan King、Todd Little、Gitta Lubke、Peter Lugtig、Katherine Masyn、BengtMuthén、Daniel Nagin、Karen Nylund、Cecile Proust-Lima、Quinten Raaijmakers、Jost Reinecke、Paula Schnurr、Geert Smid。
注释
① 通过潜变量轨迹分析,我们采用基于个体的分析技术来估计随时间推移发展的未观测到的个体亚组潜分类[1]。为了估计轨迹潜分类,将传统潜变量增长模型[2]与混合成分[3]相结合。潜变量增长模型的基本思想是假设所有个体都来自同一个人群。当结合混合模型时,假设增长参数(截距、斜率等)在预先指定和未观测到的亚人群间是变化的。这可通过使用分类潜变量来实现,分类潜变量允许各组有单独的增长轨迹,并为每个(未观测到的)组产生单独的潜变量增长模型,每个模型都有其独特的一组增长参数。
② 当小规模的潜类别是研究目标时最好选择贝叶斯估计,其在小样本 LGMM 和 LCGA 模型中的表现优于 ML 估计[78]。
③ 类别区分度指的是不同潜类别在统计上或实质上的差异。类别区分度可基于多种不同的轨迹特征,包括具有明显区别的截距或斜率、不同的轨迹形状(线性增长 vs. 非线性增长)、不同的潜变量增长因子协方差结构等[78]。
参考文献
见原文。