首 页
研究所简介
机构设置
研究人员
研究方向
研究成果
在研项目
学术交流
通知公告
 
 
您现在的位置: 首页» 学术交流
 
 
运动与锻炼心理学研究效度的提高策略:三角互证
[ 发布日期:2020-07-12  ] 【返回


2a74000f6cfe4544a9abd9e31a85b564.jpg


近年来,科学研究的可重复性危机被国内外学者频繁提及,这提醒我们,低质量研究产出不仅会降低公众对科学研究的信任,也不利于领域内不同研究问题的证据积累,如何提高研究效度是每个学科领域需要思考的问题。接下来,让我们跟随运动与锻炼心理学领域学者的目光一起看看研究效度的提高策略吧~


作者:石岩,周浩

来源《中国体育科技》2020年第1期


摘要 

揭示问题本质是科学研究和研究者们努力追求的目标,这一过程中的每个关键环节均面临着“是否准确”的问题。可重复性危机的出现是困境,也是机遇,以此推进“如何提 高研究效度”的思考和实践。本研究提出,利用三角互证提高运动与锻炼心理学研究效度的思路,梳理三角互证的两个基础理论问题,认为三角互证是一种旨在提高效度的研究策略,三角互证不等于混合方法,其内涵要大于混合方法,适用范围和条件也更广。从研究控制和取证角度探讨三角互证提高研究效度的原理,认为三角互证可以控制研究变异,推动证据链的形成。在此基础上,提出三角互证提高研究效度的4种方案:资料收集三角互证、 资料分析三角互证、研究者三角互证及方法学三角互证。方法学三角互证在实际应用中可以表现为4种形式:方法内并行三角互证、方法内前后三角互证、方法间并行三角互证、方法间前后三角互证。运动与锻炼心理学领域应高度重视研究效度问题,单一方法到多元方法使用过程中,应意识到三角互证重要的效度价值,并在实践中不断进行方法反思。


关键词

三角互证;研究效度;可重复性危机;证据链;多元方法;运动与锻炼心理学



对于特定的现象,科学家和实践者共同的目标包括观察、描述、解释、预测和控制, “准确性”贯穿于研究过程的每一个环节。量化研究总是试图说明在一定前提条件下, 科学假设比零假设在逻辑上更可取,而多数质性研究追求更准确、情境化、主体间性的 意义解释。虽然质性研究领域关于效度有更为广泛的诠释,但无论是量化或质性研究,均是努力通过有效的控制,追求效度最大化,同时,效度在质性和量化研究中有较大的共同之处。


因此,一项研究完成或发表后,效度指标成为衡量研究质量的常用标准。研究效度主要分为 4 种:1)指向变量操作化和测量 的构念效度;2)指向统计推论的统计结论效度;3)指向研 究过程控制的内部效度;4)指向结果外推的外部效度(陈 晓萍 等,2008)。由于外部效度考察的是研究结论在其他 情境中的可重复程度,其对实证研究质量而言是一个极 为重要的评价指标。构念效度、统计结论效度和内部效 度任何一个不能得到保证,外部效度就会出现问题,换言之,影响前三者的因素均会影响外部效度。由于每一种方法均存在固有的优缺点,而具体研究中又会受到客观、 情境、被试等因素的影响,在任何一项研究中,研究者往 往不能同时兼顾上述 4 种效度(陈晓萍 等,2008)。


近几年心理学、运动与锻炼心理学等领域出现的可重复性危机(reproducibility crisis)(骆大森,2017;王进,2010;Postmes et al.,2005;Schweizer et al.,2016)提醒我们,低质 量研究产出不仅会降低公众对科学研究的信任,也不利 于领域内不同研究问题的证据积累。因此,如何提高研 究效度是每个学科领域需要思考的问题。


运动与锻炼心理学领域的方法学探讨均或多或少涉及“提高研究效度”这一理念 ,如要重视效果量(王进 , 2010;张力为,2002;张力为 等,1998,2013)。可重复性 危机出现后,关于这方面的探讨开始增多,主要是针对统 计结论效度和研究设计提出的建议,具体可归纳为:1)样 本量 ,运动与锻炼心理学研究的样本量普遍偏小(Sch‐ weizer et al.,2016),样本量与统计功效成正比。


因此,通过相关公式在研究设计时估算样本量,如 t 检验(焦璨, 2014)、回归模型(胡安宁,2015)以及结构方程模型(My‐ ers et al.,2011),提高统计功效,降低Ⅱ型错误的概率;2) 报告效果量及其置信区间,P 值是统计学意义上的显著性指标,美国统计学会(American Statistical Association, ASA)(2016)发布了 P 值使用“六原则”,而效果量则能反 映出研究结果偏离虚无假设的程度;3)公开、透明和开放 的研究标准(Hagger,2019),这一点需学界共同努力;4) 进行系列研究设计(张连成 等,2019)。可以看出,目前 研究更多的是在完善虚无假设检验层面进行探讨,但也 应高度重视非统计学因素——人为偏差,如选择性报告、 可疑研究操作等(骆大森,2017)。可重复性是一个对外 部效度检验的标准,但必须意识到研究效度是一个整体 性的或“宏”概念(王进,2010),从统计层面提高研究效 度,提高可重复性的方向是正确的,但却是不充分的,同时,过分强调可重复性可能会对依赖单一方法的发现提 供毫无根据的确定性(Munafò et al.,2018)。如果原始研究结果本身就是错的,在重复研究中也有较大的概率获 得同样的错误。因此,本文认为可以将目前科学界探讨 的可重复性危机问题转换为“如何提高研究效度”问题。


从研究效度层面切入,最佳策略之一为三角互证(triangu‐ lation)。三角互证指的是一种结合不同研究者、研究资料、研 究方法等对同一问题进行分析的研究策略(范明林 等, 2009)。采用两种或多种方法研究同一个问题,对不同方 法的结果进行比较。结果的聚敛可使结果的可靠性、真 实性提升,结果的分歧可以让研究者更加谨慎并思考分 歧的原因,甚至添加小研究再去验证,即“the more meth‐ ods the better”(Saks,2018)。科学研究实践的特点之一 就是“自证”,无论研究设计多么严谨,始终是自己提出假设、收集和分析资料,继而进行推论,这一过程中存在着 太多威胁效度的因素。在现有研究和论文发表模式下, 完善“自证”,多种方法提供多元证据显得尤为重要。史 学研究中,王国维提出的二重证明法、二重证据法以及在 此基础上发展的三重证据法,就是利用多元资料验证史 学发现的可靠性和真实性。颜军指出①,尽管应用多种研 究方法未必一定能使研究工作获得成功,但综合使用研 究方法毫无疑问比单一方法更能成功。同时 ,张力为 (2005)认为,结合使用质性和量化方法对提高研究质量 必不可少。石岩等(2010)也提示,方法的结合可以对研 究结果进行检验,从而提高其可靠性,减少因一种方法本 身的限制而导致错误结论的可能。本研究立于研究效度,提出“三角互证可以提高运动与锻炼心理学研究效 度”这一基本命题,从三角互证的基本概念切入,探讨三 角互证提高研究效度的原理,在此基础上提出三角互证 提高运动与锻炼心理学研究效度的 4 种具体方案。



941311840c2549148a2b5ca0357216f9.jpg

三角互证的基本概念及其提高研究效度的原理


1.1 三角互证的基本概念


“Triangulation”一词来源于中古拉丁语的“Triangu‐ lare”,原意是“做三角”。在航海和土地丈量等领域,它是 以三角形原理为基础的测量定位方法(范明林 等,2009)。国 内 学 界 存 在 多 种 译 法 ,如 三 角 测 量 法(范 明 林 等 , 2009;孙进,2006)、相关检验法(陈向明,2000)、多元交 叉法(李晓凤 等 ,2006)、三角互证法(林刚 等 ,2014)。目前需要澄清的一个理论问题为:三角互证是一种研究 方法还是研究策略。这关系到研究方法术语的规范性和 层次性问题。三角互证引入社会与行为科学研究领域始 于研究者对结构效度的思考,操作主义(operationalism)的 先天缺陷使研究者提出多重操作主义(multiple operation‐ alism)理念(Boring,1953)。Webb 等(1966)首次使用了 “Triangulation”来概括一系列理念,如多种测量方法、多重测量等。Denzin(1978)系统诠释了三角互证的内涵和外延,认为三角互证的目的为:依赖几种离散的但相关的 策略(strategies)和技术(techniques)定义每种研究方法。他以参与式观察法(participant observation)为例进行了说 明,认为参与式观察法最好被视为调查数据、统计分析、 文本分析、直接观察等的综合。可以确定的是,从 Denzin 的研究后,将三角互证视为一种研究策略成为一种广泛 的共识。在诸多研究中,三角互证均被表述为研究策略 (Carter et al.,2014;Munafò et al.,2018)。根 据 Denzin (1978)和 Adami 等(2005)的研究,可以将三角互证分为 4 种类别(图 1)。


13.png


资料收集三角互证强调获取不同性质的资料,如收 集不同被试的访谈资料、收集同一批被试的访谈和观察 资料等,即形成交叉验证资料(cross-validate data)(Adami et al.,2005);研究者三角互证指的是多名研究者或多个 研究团队针对一个问题同时进行研究,可以是整体研究 的相对独立,也可以是在资料收集或资料分析阶段的相 对独立;资料分析三角互证即针对同一组数据采用多种 分析方法;方法学三角互证即采用两种或多种完整的方 法针对一个问题进行研究,包括方法内和方法间三角互 证。值得注意的是,虽然三角互证包含了方法间三角互 证,但其与混合方法(mixed methods)有一定区别。


20 世 纪 70—90 年代末,三角互证一直是进行混合方法研究的 重要依据(Morgan,2019;Tashakkori et al.,2016)。发展 至今,由于三角互证在量化和质性研究领域存在价值多 元性(效度、深度、广度),且该问题至今没有定论(孙进, 2006;Adami et al.,2005),所以近期混合方法领域从术语 层面倡议不再使用三角互证(Fetters et al.,2017),而是用 聚敛(convergence)、互补(complementarity)和分歧(diver‐ gence)替代三角互证。可以看出,研究者实际上是用术 语的形式替代了三角互证的价值争论,聚敛指向效度,互补指向深度和广度(Morgan,2019)。将“为了三角互证 使用混合方法”这一目的拓展为“为了聚敛、互补和分歧 使用混合方法”。


这种提议在未来混合方法的发展中可 能会被广泛接受,但就三角互证而言,在量化和质性研究 领域依旧被使用,且外延不断拓展。在大量社会与行为 科学研究不可重复的背景下,三角互证再一次引起学界 关注。综合而言,三角互证不等于混合方法,其内涵要大 于混合方法,混合方法是质性和量化方法之间的调和,而 三角互证包含方法内互证和方法间互证,三角互证的适 用范围和条件也更广。


1.2 三角互证提高研究效度的原理


阐释三角互证提高研究效度的原理,需要回答一个 关键问题:什么研究是高效度的研究?答案可能有很多 种,但两个关键因素是必备的,即有效的控制和完整的证据链。


1.2.1 三角互证能够控制研究变异


所谓控制,实质就是对研究变异的控制。研究变异 控制得越好,效度也就越高。研究中的变异来源主要有 3 种:1)系统变异,即因变量变异中受自变量影响的部分。量化研究中,系统变异越大,自变量对因变量的作用效应 也就越明显,而质性研究中,要保证概念、主题或理论与 资料的对应性,又要控制主题之间关系归纳的合理性;2) 外生变异,即研究中不关注的变量带来的变异;3)误差变 异,由随机误差和系统误差构成。为保证研究效度,研究 过程中需要最小化外生变异和误差变异,以实现最大化 系统变异。


外生变异会系统影响研究者关注的因变量,但却与 研究目的无关,所以需要进行严格控制。一般而言,研究 者会采用随机化抽样或统计控制来降低外生变异的影 响,但这种操作仍然会产生偏差(苏毓淞,2017)。三角 互证在控制外生变异方面更具优势,如进行一项运动提 高主观幸福感的干预实验,不仅可以收集主观幸福感的 基线水平和干预后水平的量表数据,还可以在干预过程 中/后对被试进行访谈,通过访谈结果验证主观幸福感变 化是否由运动引起;还可以对被试随机分组,在统计时使 用资料分析三角互证,采用多种分析方法降低外生变异 的影响,如在传统方差分析基础上进行倾向值匹配,使干 预组和对照组处于平衡。对于以探索性为主的研究,需要保证归纳的主题贴合研究目的,而不能归纳到一些外 生变异上,如自下而上探索某个构念的维度,归纳的就应 是“因子”,而不是“影响因素”类的主题。三角互证可以 较好地解决该问题,如王进(2008)在运动员退役过程的 心理定性分析研究中就使用三种性质的资料,主试与被 试的会话访谈、媒体访谈和文献记录有关的行为信息,保 证了归纳主题的准确性。


外生变异和误差变异的影响在统计上很难区分,这 两部分之和就是在统计分析时所说的剩余部分(residual) (陈晓萍 等,2008),但从理论上二者的来源却是清晰的。误差变异主要由随机误差和系统误差构成,虚无假设检 验 能 够 分 离 随 机 误 差 ,但 不 能 分 离 系 统 误 差(焦 璨 , 2014)。系统误差的最大来源为研究方法的固有局限,而 三角互证的提出和应用很大程度上是面向系统误差,如 Webb 等(1966)所言,“如果一个命题被两个或多个独立 的测量过程确认,其解释的不确定性就会大大降低”“当 一个假设能够在一系列互补性方法的对比中依旧成立, 那么它就具备了单一方法无法达到的有效性”。三角互 证降低系统误差,实质上就是利用了多种方法得出交叉 验证(cross-validating)结果,避免由单一方法局限带来的 效度威胁。


1.2.2 三角互证有助于证据链的形成


当一项研究进行了较好的控制,作结论或提出一个 命题时,还需要追求几个关键问题:证据质量如何?证据 充分吗?有证据链支撑吗?以最近体育领域较为热门的 口述史研究为例,假如仅依靠被访谈者的主观经验描述 就得出结论,其效度必然会受到质疑。因此,口述史研究 必须要收集除主观经验之外的其他证据,如文本、他人叙 述等,形成证据链,使提出的观点能够落到证据链区间。张力为等(2017)从研究结果的角度强调了科学研究证据 和证据链的积累。本文更倾向于要重视单项实证研究的 取证问题,并认为三角互证有助于单项实证研究证据链 的形成。


证据链是一个法律术语,但其逻辑非常适用于科学 研究。在刑侦过程中,刑侦人员不能依靠犯罪嫌疑人承 认自己的犯罪行为进行有罪认定,要广泛寻找物证、人证 等,然后将证据进行组合,完整地证明其犯罪过程。科学 研究的结果也需要证据、强证据和证据链的有力支持。袁方等(1997)提出,实地研究资料的可靠性不如统计调 查,但统计调查资料的有效性不如实地研究。同时,不同 研究者的学术背景会影响其取证方法的选择,如心理学 出身的研究者一般会使用实验法,而社会学背景的研究 者则更倾向于问卷调查或田野调查。因此,对于哪种取 证方法获取的资料好,没有绝对的标准。有必要使用多 种方法,并尽可能收集各种来源的资料(袁方 等,1997), 如循证医学的观点(evidence-based medicine,EBM):经典 循证医学是最好的研究证据与临床医生的技能、经验和 患者的期望、价值观三者之间完美的结合。三角互证与 这种观点相同,强调整合不同取证方法,形成证据链。


三角互证就是要建立一种相互关联的证据关系,将 所研究的问题置于这一关系中,处于相互引证关系中的 命题要比那些不处于这些关系中的命题更为合理和可 靠。根据司法领域对证据链的诠释,证据链只能表现为 “有助益的支撑”(contributive support),即一个证据对另 一个证据的助益并非使两者证成为真,而只是促进彼此 变得更可信(栗峥,2017)。同时,证据链的非线性特征 也决定了其接近事实的程度远大于孤证。再如人格心理 学研究,人格数据主要分为 4 类:直接询问本人(S data)、 询问知情人(I data)、生活事件(L data)和观察行为(B da‐ ta),尽管诸多学者都倡议在研究中应对数据进行整合, 但部分研究只使用 S data。随着人格整合模型的不断发 展,若想了解个体完整的人格,综合使用量化和质性数据 就成为一种必然(石岩 等,2017)。能够聚合多元证据也 是目前科学界重视三角互证价值的一大原因(Munafò et al.,2018)。



9561eb5058fa4b74abe9091a7b0da7b4.jpg

三角互证提高运动与锻炼心理学研究效度的方案


任何一项研究都难以同时兼顾构念效度、统计结论 效度、内部效度和外部效度,但一项研究设计的优缺点却 能够通过研究者自身学术能力和经验做出合理判断,如 进行实验研究,要优先考虑内部效度,使用扎根理论,首 要考虑的就是不同层级编码的准确性。因此,针对 4 种 主要效度指标,根据三角互证的分类体系(Adami et al, 2005;Denzin,1978),提出 4 种相应的方案(图 2)。


36d95d2858d84cb5aa2ebb3bef7eeb18.jpg


2.1 方案1:资料收集三角互证


资料收集三角互证是提高构念效度的首选。量化和 质性研究虽然是两种不同的研究逻辑,但构念的准确性 是研究效度提高的起点。量化研究是自上而下操作化一 个概念或变量,强调测量的准确性,而质性研究则是自下 而上生成一个概念或一组概念关系,更强调建构的准确 性。三角互证最初的提出就是为了克服操作主义先天的 缺点,即对于我们想测量的事物,只能是一种不太完美的 测量,因为多数情况下我们通过概念所“指”的意思,无法 通过一些特定的测量方法来穷尽(舒跃育 等,2019),所 以量化研究中构念效度的提高需要采用多种测量方法对 变量进行把控,而质性研究则是要通过资料收集三角互 证获取多元资料,使所归纳的概念或相互关系能够在获 取的资料中得以证实,即研究者的建构在多大程度上可 以从被研究者的建构中找到依据,以及这种依据在多大 程度上能被其他人理解(Flick,2011)。


资料收集三角互证可以在量化和质性研究的资料收 集阶段使用,要求获取两种或多种不同性质的资料。本文以颜军等(2013)关于锻炼和心理训练对心理压力影响 的研究为例,说明量化研究中如何利用资料三角互证来 提高构念效度。该研究对因变量心理压力的测量充分体 现出资料三角互证,使用了《中国大学生心理应激量表》 和皮质醇作为心理压力的评价指标,皮质醇被认为是人 体的“压力激素”。研究结果证实中等强度体育锻炼联合 团体心理训练对女大学生心理压力有积极的调节作用, 同时也能有效调节被试的皮质醇水平。用两种不同性质 的资料反映压力水平,很大程度上降低了测量误差,也使 对心理压力的评价更加客观。随着更客观的测量技术的 普及,未来运动与锻炼心理学探讨锻炼的心理效应时,完 全可以收集“心理+生理”资料进行互证,降低单一纸笔测 验方式带来的构念效度威胁。心理反应不完全等于生理 反应,但心理反应必定有其生理基础。这种资料收集三 角互证应用有两个前提条件:1)研究者有一定的生理学 基础,且具备采集生理数据的条件;2)已有研究充分证实 了某一心理变量与生理因素的关联性。


运动与锻炼心理学的质性研究中,多元资料的收集 已经有所凸显(王进,2008;Vazou et al.,2005),但整体而 言,获取资料的方法还是相对单一,访谈仍处于主导地位 (孙拥军 等,2014)。访谈过程中,由于被试通常了解主 试者的研究目的,社会期望(social desirability)往往会成 为效度威胁的主要因素(王进,2008),应引起重视。通 常情况下,研究者会根据访谈资料归纳主题和主题之间 的关系,此时研究者的诠释仅仅是依靠“听到的”资料,主 题归纳是否像研究者所理解的那样?或者说被访谈者叙 述是否准确?仅依靠单一资料难以回答这些问题。如果 结合访谈和观察,研究者的归纳不仅是基于“听到的”资 料,还能以“看到的”资料实现相互佐证,那么所归纳的主 题就会更具说服力。


本文以一项关于专业体育培训中青少年发展环境的 研究(Strachan et al.,2011)为例,说明资料收集三角互证 是如何提高质性研究的“构念效度”。该研究主要基于教 练员视角探讨什么样的体育培训环境更有利于青少年发 展,使用的资料包括 5 名优秀教练员的访谈资料及其培 训课的观察记录资料。资料的处理方式全部为扎根理论 分析,在呈现编码结果时,访谈资料和观察资料形成了较 好的互证关系(表 1)。


ebe2d253120644aeb5ec936ec0e1ab6a.png


从表 1 可见,研究者不仅从访谈资料中获取了教练员 采取的具体措施,通过观察也得到了较为一致的信息,如 个人安全这一类别,4 名教练员强调了基础技能的重要 性,其中 3 名教练员提及基础技能对运动损伤的预防作 用,2 名教练员提及会向运动员告知风险因素等,在个人 安全类别下的 4 条具体措施,研究者在观察教练员培训 过程中印证了 3 条。两种性质的资料均指向所归纳的概 念,如陈向明(2000)所言,如果有充分的证据表明一个表 述或命题最合理、最恰当地表现了在现存条件下所得到的结果,那么这个表述或命题就是有效的。此外,除了通 过两种或多种资料收集方法外,还可以通过同一种方法 获取两种或多种资料来源,如王进(2008)在探讨运动员 退役过程的心理问题时,就使用了“组内+组间”(失败个 案和成功个案)的访谈资料来控制效度。


2.2 方案2:资料分析三角互证


资料分析三角互证是一种更偏重从技术层面提高统 计结论效度(质性研究中更习惯用“解释性效度”)的方 案,要求用两种或多种分析方法处理同一组数据,对研究 者的资料分析技术掌握程度要求较高。在受经费、人力、 物力等条件限制时,这种方案就成为首选,如量化研究中 只能获取心理测量数据、面板数据等,质性研究中仅能获 得访谈数据。


从大的分类来讲,资料可以分为质性和量化资料,前 者是以文字为主,后者是数字。数字资料的分析方法较 为固定,而文字资料分析是对意义的系统探索(陈向明, 2000;Hatch,2003)。从某种意义上讲,质性资料的价值 一定程度上取决于采用何种分析方法。由于质性研究的 资料分析必须要达到一种“确切”程度(陈向明,2000), 近些年国外教育心理学领域开始倡议资料分析三角互证 (Leech et al.,2007),Renz 等(2018)认为,随着质性分析 软件的不断推广,多种资料分析方法的结合愈发便利,这 种结合可以提高研究结果的可信性(trustworthiness)。质 性资料分析方法种类较多 ,如持续比较分析(constant comparison analysis)、主题分析(thematic analysis)、关键词 情境分析(keywords-in-context)、计词分析(word count)、 经典内容分析(classical content analysis)等(Angus-Leppan et al.,2010),但被应用最多的资料分析方法为持续比较 分析,即研究中经常提及的“编码”,而其他分析方法则没 有被充分地认知和使用(Leech et al.,2011)。随着更多 的研究呼吁资料分析三角互证,一些实证研究开始尝试 使用这种策略,如 Dadich 等(2018)在探讨公共卫生知识 的传播问题时,就结合使用了主题分析和词汇学分析,以 “图文互证”的方式展示了研究结果。多种分析方法处理 同一组数据为挖掘和诠释数据提供了更大的空间,当我 们对资料进行编码,建立概念之间的关系时,可以使用内 容分析构建关键词之间的语义网络,以考察关系建立是 否准确。


对于量化研究而言,数据分析方法较为固定,即根据 研究目的选择分析方法。运动与锻炼心理学研究多数是 以准实验设计和观察性的研究设计展开,当进行统计推 论时,尤其是尝试得出变量间因果关系时,须清晰意识到 因果推论的基本难题。因果推论的基本难题是无法观察 到反事实,根据反事实理论(counterfactual theory),若想 得出个体 A 运动与主观幸福感的因果关系,研究者会设 计一个干预实验,假如干预时间为 12 周,个体 A 前、后测 主观幸福感存在差异,此时,研究者还是不能得出因果关 系,因为如果想要得出运动与主观幸福的因果关系,就需 要观察到反事实,即个体 A 在 12 周内如果不运动,主观幸 福感不会变化。显然,时间不能倒流,所以一些有经验的 研究者会在实验设计时采用随机取样、随机分配的方式 设置对照组(随机保证实验组和对照组在混淆变量上处 于平衡),将对照组作为干预组的反事实进行观察,但这 对于观察性研究而言难以实现。


因此,为了保证统计推 论的准确性,运动与锻炼心理学研究采用准实验设计和 观察性研究设计时,统计阶段可考虑在传统统计分析基 础上增加附加统计,根据手头现有的数据,尽可能对我们 关心的个案进行配对,使其在一些混淆变量上的取值尽 可能接近,进行倾向值匹配分析(propensity score match‐ ing analysis),对数据进行平衡,可根据样本的年龄、身高、 体重、受教育程度、锻炼习惯、生活环境等背景变量进行 配对。倾向值就是某一样本接收到处理的概率,通常使 用各类回归模型来求解倾向值,而回归模型中使用的共 (协)变量就是用来匹配样本的变量 ,具体程序如图 3 所示。


fe3df0ae84204ba79858db7f6a765403.png


本文以苑春永等(2013)关于独生子女情绪适应的研 究为例加以说明。该研究主要解释了“独生”是否会影响儿童的情绪适应,使用了中国儿童青少年心理发育特征 调查项目(NCSC)的社会适应数据库,其中非独生子女 2 657 名,独生子女 2 685 名。研究者使用 t 检验对两组数 据进行检验,但结果却很难解释,如独生子女的孤独感、 焦虑和抑郁水平均低于非独生子女,且达到了统计显著。之后 ,研究者通过半径匹配法(radius matching)进行匹 配,考虑的共变量包括性别、城乡、家庭类型、家庭收入 等,匹配后再使用 t 检验统计,结果完全不同(孤独感、焦 虑和抑郁水平未达到统计显著)。


根据此结果,研究者做出了更准确的推论,即是否独生对儿童的情绪适应没有 影响,社会上存在的独生子女劣势论存在偏差。通过在 传统统计分析基础上,加入更加精确的分析方法,可以起 到互证、纠正作用,有利于获取准确效果量,对证据积累 也具有积极作用。对于运动与锻炼心理学研究来说,很 多还是依赖准实验设计和观察性研究设计,本文推荐的 这种传统统计+倾向值匹配的策略可以在一定程度上提 高统计结论效度,且简单易行,倾向值匹配可通过 R 软件 MatchIt、Matching 等程序包实现。


2.3 方案3:研究者三角互证


研究者三角互证是在进行一项研究时,两个或多个 研究者同时、独立地进行资料收集和分析,其最大价值在 于增强研究控制,提高研究的内部效度。量化研究中,内 部效度的主要影响因素来自于除自变量以外的各种混淆 变量,如主试因素(期望效应、皮格马利翁效应、投射效应 等)、被试因素(霍桑效应、安慰剂效应、亨利效应等)等。质性研究中,内部效度与“诠释效度”类似,即从研究结果 中建立起来的理论是否真实地反映了所研究的现象(陈向明,2000)。


无论是量化研究还是质性研究,内部效度 提高的关键在于研究过程的控制,控制资料收集过程和 资料分析过程,研究者三角互证正是通过不同研究人员 同时进行同一项工作,以保证研究过程中尽可能少的出 现偏误。研究者三角互证可以是针对某项研究的整体, 也可以在资料收集或资料分析阶段使用。近期生物医学 领域提出了“no publication without confirmation”的呼声, 要求研究者按照最佳临床研究实践(best clinical-research practices)的标准,在实验完成后,由相关的其他研究者和 团队进行验证性研究,即“临床前实验”(preclinical trial) (Mogial et al.,2017)。


这种研究者三角互证模式价值确 实很大,但有较大的操作难度,根据研究阶段性特征,本 文提供使用研究者三角互证的两种形式:1)在资料收集 时使用研究者三角互证;2)在资料分析时使用研究者三 角互证。这两种方式在质性研究中可以同时使用,但应 重点考虑在资料分析时使用,而在量化研究中,应优先考 虑资料收集时的研究者三角互证。


质性研究中,保证建构的理论能够恰当地解释所研 究的现象,而不出现除“理论”之外的其他解释,控制资料 收集和分析过程至关重要。不管是观察还是访谈,一定 程度上会受到研究者自身的价值观、研究经验等因素影 响。研究者三角互证其实就是一种集体性资料收集,且 不同研究者资料收集的过程相对独立,如果在没有事先 讨论的情况下,2 个或 3 个研究者报告了同样的观察或访 谈结果,那么所获得资料的信度和效度就会很高,类似于 量化研究中的内部一致性。


而相对于资料收集,质性研 究中理论的生成更应对资料分析过程进行控制。多个研 究者参与到资料分析过程中在质性研究中较为常见,即 运动与锻炼心理学领域常提及的三角检验或编码一致性 检验。就目前研究来看,多数研究中仅用一句或一段话 来说明进行了研究者三角互证,给出一个一致性指标,如 一致性达到 90%。然而,这种操作存在如下问题:1)体现 出领域内对研究者三角互证价值的认知不到位;2)更说 明对研究者三角互证的报告程序存在较大缺陷。


资料分析阶段进行研究者三角互证的公认程序为:多名研究者通过讨论,建立一个编码框架,然后根据框架 同时进行编码,或者是由研究者本人先进行编码,完成后 交由其他研究者对各主题与原始资料之间的逻辑性进行 检验。这种操作实质上是为了获得结果的最大真实度 (陈向明,2000),而不是“一致性”。


因此,非常有必要将 对“一致性”的追求转移到“研究者是否有能力检验编码 的真实性”问题。质性研究的编码工作并非任何人都可 以参与,尤其是现在大部分质性研究都在试图建立一种 “故事线”式的模型来得出一种因果关系,而这一工作的 难度在于不仅要处理概念之间包含与被包含关系,更重 要的是要借用逻辑学和集合论的知识来处理变量间“必 要性”和“充分性”问题,这往往需要很强的研究素养。因 此,资料分析阶段使用研究者三角互证,非常有必要在报 告中尽量详细地呈现参与三角互证人员的专业背景、学 术基础、与研究主题相关的学术经验等信息。


量化研究中之所以要优先考虑在资料收集阶段的三 角互证,主要原因是量化研究的数据分析相对固定,且有 相应的软件支持,统计阶段可能会出现一些问题,但通过 研究者经验或与他人的讨论基本能够解决,如在回归分 析时,可能会出现异常值,研究者会根据经验采用虚拟变 量消除异常值的影响,或寻找精通统计的研究者剔除异 常值。从样本问题的复杂性来看,量化研究数据收集的 关键性不言而喻,样本量、样本的随机异质性和系统异质 性 、测 量 工 具 等 问 题 均 会 影 响 内 部 效 度 。Mogial 等 (2017)提出了生物医学领域的一种严格的研究模式,这 种模式对运动与锻炼心理学具有一定的启发性。对于单 项研究而言,可以使用多个研究者进行独立的数据采集。


以实验研究为例,可以针对某一问题进行严谨的实验设 计,而实验操作则由研究者本人和团队内其他成员独立 进行,即进行两个或多个实验,得出效果量及其置信区间。此外,如果实验结果有一定差异,可以采用小规模元 分析(胡传鹏 等,2016),整合效果量,通过 meta 回归和亚 组分析技术识别可能对效果量产生影响的调节变量,对 实验结果进行更丰富的解释。运动与锻炼心理学领域经 常会涉及一些自然情境下的锻炼干预心理研究,且干预 时间较长,这种情况就非常适合研究者三角互证。此外, 无论是质性研究还是量化研究中使用研究者三角互证, 都需要在报告中进行详细的说明,本文提出一些建议,包 括但不限于表 2 所示的几点。


d5df2663cf7448599d6d2a46de392d0f.png


2.4 方案4:方法学三角互证


在所有的效度指标中,外部效度是应用性实证研究 最重要的评价标准,也是实证研究最难保证的一项指标。从三角互证的发展及目前学界的观点来看,方法学三角 互证对外部效度的提高效果最佳(Denzin,1978;Munafò et al.,2018;Saks,2018;Webb et al.,1956)。方法学三 角互证操作难度最大,涉及方法内和方法间三角互证,其 最大的特点在于“完整”,同时要求两种方法在研究中处 于平等,在技术层面既包括资料收集方法又包括资料分 析方法。方法学三角互证不仅要实现两种方法“取长补 短”(Denzin,1978),更要形成两种或多种完整的证据。方法学三角互证涉及质性和量化的同时使用,目前越来 越多的研究者倡议在实践层面两种性质的方法可以同时 使用(叶浩生 ,2008;Goertz et al.,2016;Hagger et al., 2011;Horn et al.,2011;Moran et al.,2011)。基于此,本 文主要推荐实践中易于操作且效果较好的 4 种方法学三 角互证形式:方法内并行三角互证、方法内前后三角互 证、方法间并行三角互证、方法间前后三角互证。


2.4.1 方法内并行三角互证


方法内并行三角互证是两种或多种量化或质性方法 同时针对一个问题进行研究,研究过程交互程度较低,得 到结果进行对比,追求结果的聚敛。以石岩(2004)对我 国优势项目高水平运动员参赛风险的研究为例,该研究 采用了列表排序法和帕累托分析法同时对运动员参赛风 险进行了评估,在研究方法部分作了如下表述:“应用帕 累托分析主要是用于运动员参赛风险评估的尝试,寻找 运动员参赛的主要风险和次要风险,为防范与应对运动 员参赛风险提供参考,同时尝试与列表排序法的评估结 果进行比较,探寻运动员参赛风险的评估方法问题”。


帕累托分析是基于开放式问卷的计词统计,而列表 排序则是根据专家打分,继而通过计算风险量得出风险 排序。这两种方法是基于不同资料来源和分析,评估运 动员参赛风险的角度也不同,两种方法得出的结果基本 趋同。当然,两种方法针对一个问题研究,有一定概率得 出互补或矛盾的结果,此时需要有一个清晰的分析框架, 以便于研究者有针对地进行取舍或进一步探讨。本文参 考 Morgan(2019)的研究,提供一个分析框架,该框架可以 用于多元资料收集和分析、方法学三角互证的结果分析 等阶段(表 3)。


ac6d163f8dfd4fc295226b081fda9a4f.png


质性方法内并行互证,即通过两种或多种质性方法 针对一个问题同时研究,但实际应用有一定难度,因为并 不是总能找到最适宜的方法组合,如研究者一般不会使 用 民 族 志 和 扎 根 理 论 同 时 研 究 一 个 问 题 。Brewer 等 (1989)曾提出过“合成的”(synthetic)方法,即从研究方法 的基本类型中借取一些元素而组成方法。因此,本文建 议在没有适宜的方法组合时,应优先考虑资料收集三角互证。


2.4.2 方法内前后三角互证


方法内前后三角互证,即通过一种量化或质性方法 去验证另一种方法得到的结果。首先是量化方法内前后 三角互证,即通过第 2 种量化方法验证第 2 种量化方法得到的结果。运动与锻炼心理学的实证研究大都是采用一种方法得到结果后,继而对结果进行讨论。心理学研究 不能重复无外乎两个原因,要么原始研究是假阳性,要么 重复研究是假阴性,但近年来的实践表明,无法重复很大 程度上是由于原始研究假阳性过高,假阳性过高与心理 学研究中方法与实践的不严谨性不无关系(胡传鹏 等, 2016),这种不严谨性被称为可疑研究操作。随机对照组 实验(randomized controlled trial,RCT)被认为是得出因果 推论的最佳方法,但实验过程的控制和数据的统计最容 易出现可疑研究操作,如根据结果的显著性来决定是否 停止收集数据、根据结果的显著性来选择统计方法等。对于量化研究,尤其是实验研究,有必要在完成实验后自 己进行重复性研究,加入自证环节。


质性方法内前后三角互证,即在质性研究中采用第 2 种方法去验证第 1 种方法得到的结果,这种形式不仅可 以实现验证、提升结论的外推性目的,也可以起到拓展研 究者对问题认知的深度和广度。以王莹(2017)对优秀运 动员形象进行的系统研究为例,其采用了两种方法对优 秀运动员的形象进行定位:1)基于媒体文本的扎根理论 分析;2)基于公众视角的自由词汇联想。自由词汇联想 的结果不仅能够起到验证扎根理论分析结果的作用,更 能在一定程度上提高结果的深度和广度。


与媒体报道提取范畴有差异的是新增添的 3 个范畴, 即外在形象、影响力和利益、公众人物,这种差异是时代 的 变 迁 以 及 公 众 需 求 主 动 化 、平 等 化 的 体 现(王 莹 , 2017)。由此可知,除了“新增添的 3 个范畴”外,两种方 法归纳的范畴基本一致,优秀运动员形象的定位基本能 够达到高效度要求,且结论的适用广度也得到了提升。质性研究的特征就是重视差异、尊重差异、诠释差异。因 此,研究者对两种结果的差异进行了系统的理论诠释。


2.4.3 方法间并行三角互证


方法间并行三角互证,即利用质性研究和量化研究 解释同一个问题,两种方法处于同等地位,研究过程中两 种方法交互程度低,得出结果后进行对比互证,非常适用 于提高运动与锻炼心理学的小样本研究的外部效度。Schweizer(2016)进行过系统统计,运动与锻炼心理学小 样本研究居多。小样本研究最大的弱点就是统计功效偏 低(鲍贵,2014;焦璨,2014),尽管大家都能意识到小样 本产生统计偏误的概率会增大(虽然效果存在,但统计结 果并不显著),但并未充分重视小样本产生假阳性结果的 概率也非常高(虽然效果不存在 ,但统计结果显著)。Gelman 等(2014)针 对 效 果 量 的 估 计 提 出 了 M 型 错 误 (type M error)和 S 型错误(type S error),小样本量研究出 现 M 型错误的概率也会很高,即报告的效果量要远高于 实际情况。有研究建议增加样本量,以保证统计功效,但 增加样本量的方法过于绝对,尤其是对于运动与锻炼心 理学研究来讲,还有待商榷。运动与锻炼心理学研究会 较多地涉及优秀运动员、有锻炼习惯的中老年人、特殊锻 炼人群等,很多情况下样本总体均不会很大,再考虑研究 经费、时间、地域等限制,增加样本量确实不能一概而论。运动心理学研究者多是随队科研人员,为运动队提供服 务。这部分群体的调研对象多是高水平运动员,调研对 象的特殊性也决定了其样本量有限。因此,对于运动与 锻炼心理学的小样本研究来讲,利用质性和量化并行三 角互证提高外部效度就是不二之选。


以Richard 等(2017)研究为例,该研究探讨了即兴创 作(improvisation)干预对 9 名精英花样滑冰运动员运动成 绩和心理素质的影响,设计了为期 12 周,每周 1 次,每次 2 h 的即兴创作干预方案,评估干预效果的数据通过统计 运动员比赛成绩、自尊量表、正念量表、创造性量表和价 值观量表。在每次干预后要求运动员填写一份包含 7 个 开放式问题的问卷,包括运动员干预过程中的体验、面临 的困难等。在整个干预结束后,又对运动员进行了访谈, 主要围绕运动员心理素质展开针对性访谈。研究发现, 运动员在干预结束后的运动成绩、自尊、创造性以及正念 能力都有提升(P<0.05),质性研究中运动员也表示干预 后自己的运动技能表现更加流畅,注意力更加集中,并且 能克服害羞心理,质性结果对实验结果起到了检验和验 证作用。在该研究的讨论部分,针对实验研究提出的每 一条假设,结合质性结果进行了整合性讨论,利用质性的 访谈资料对实验结果进行了深层次的解释。质性研究结 果也有效地弥补了显著性检验的先天缺陷,为推论即兴 创作干预的有效性提供了更有力的证据。


2.4.4 方法间前后三角互证


方法间前后三角互证在时序上表现为质性和量化的 前后验证,交互性很强。本研究提供 3 种适用情境:1)利 用质性研究检验量化研究结果;2)质性研究建构概念模 型,利用量化研究进行验证;3)质性研究构建实质性理 论,量化研究进行大样本的建模验证。


利用质性研究诠释量化研究结果,这种前后互证策 略具有较强的量化导向,两阶段的结构也便于实施,研究 者在两个阶段分别使用量化和质性方法,一次只收集一 种类型的数据。这也意味着,即便是单个研究者也可以 使用这种策略。质性研究的目的在于检验量化结果,研 究设计要以量化结果为依据,以实现验证的目的。此外, 这种方法间前后三角互证还能够起到深入诠释的作用, 如 Miles 等(2008)所言 ,虽然我们看见实验组出现了效 应,但其并没有告诉我们黑箱中发生什么事,我们并不知 道它是如何发生的,只能猜测牵涉的一些机制。此时,质 性结果能够对量化研究进行填补,使研究者能够针对结 果进行更准确的推论。以 Vidic 等(2017)的研究为例,研 究设计详见表 4。


386e19a4816d4a8097a49bb3ec6ac89c.jpg


Vidic 等(2017)对干预实验结果进行统计表明,干预结束后运动员感知压力有所下降,压力应对能力有显著 提升。根据这种结果,设计了 3 个结构化问题对运动员 进行访谈,结果表明,运动员认为正念训练能够从以下方 面使自己受益:提高自我意识、控制、专注以及放松能力, 而这些正是运动员压力应对能力的内容。在讨论部分提 及,干预实验结果虽然显示运动员压力感知下降和应对 能力提升,但却不能确定这种变化是否由正念训练引起, 而质性研究结果很好地回答了这一问题,为推论正念训 练的效果提供了很强的证据。


上述两种模式都是更重视以数据驱动为主的因子分 析,完全依靠数据确定概念模型,可能会在确定概念维度 时脱离研究对象,造成宏观理论与所研究情境不匹配。量表编制研究应更多地重视理论构建部分,可采用质性 研究自下而上形成概念模型,利用量化研究验证其合理 性。黄希庭(2017)谈及人格研究中国化问题时提及如下 思路:通过质性研究找出人格概念的指标和维度,继而通 过因子分析编制信度和效度较高的量表。这一思路实际 上就是质性和量化的前后三角互证。在质性研究阶段, 可以采用扎根理论建构概念模型,理清概念内涵,使用扎 根理论归纳的概念维度和指标编制题项,再通过探索性 因子分析检验维度的稳定性,继而通过验证性因子分析 建立测量模型,验证整体概念模型(测量模型)的信度和 效度。


质性研究构建实质性理论,量化研究进行大样本的 建模验证。目前扎根理论在运动与锻炼心理学领域应用 最为广泛,主要有两种方式:1)构建概念模型,用于概念 的操作化;2)构建“故事线”式的因果模型,用于解释某种 现象或问题。质性研究探索因果关系与量化研究最大的 不同在于,量化研究是一种变量取向,而质性研究则是一 种个案取向。质性研究是在个案内进行某种特定事件的 因果分析,量化研究则是在个案间层面去估计因果效应。对于小样本的质性研究结果来说,其是否同样适用于大 范围样本;对于量化研究结果来说,其因果效应是否在一 些特殊个案中同样稳定(Goertz et al.,2012)。


这就使质性研究和量化研究在探索因果机制上的互证成为可能。目前扎根理论研究多停留在“故事线”模型阶段,较少看 到有多项研究针对一个问题进行深入探索。一般情况 下,某个问题的一项扎根理论研究发表后,较少有相关研 究再去触碰。这也导致扎根理论研究的选题追求“新 意”,已有模型得不到更多的关注,沦为“一次性研究”,其 价值不能得到充分体现。结构方程建模要求变量间每一 条路径都必须有理论和实证研究的证据支撑,自下而上 的扎根理论完全可以作为结构方程模型建模的理论依 据,用大样本的模型去验证扎根理论所建构的模型,验证 和推广研究结果。运动与锻炼心理学领域鲜见这种尝 试,但在其他领域已经有所应用。


18e49f1f8a954821a7d2e3caf560de12.jpg


以张春雨等(2018)的研究为例,该研究探讨了高管 团队异质性对技术创业企业绩效的影响。从表 5 可见, 研究在质性研究阶段呈现了详细的资料编码流程,在选 择性编码阶段已经根据原始数据的陈述结构提出了“故 事线式”的模型:高管团队异质性能够直接影响技术创业 企业绩效,也能够通过商业模式价值创造影响企业绩效。根据该模型,通过面板数据建模,验证了该模型的信度和 效度。结构方程模型分析完成后需要对各路径进行深入 的理论分析,解释“为什么”的问题,传统讨论均是根据已 有理论和相关研究对路径进行解释,而质性和量化的前 后互证策略给予研究者在讨论部分充分利用质性资料的 空间,用质性的“深描”“诠释”方法,结合已有理论和研究 对可能存在的因果效应进行解释,逻辑更加严谨。



e21f970a97db4238b16d65ab01cdcdf9.jpg

结语


揭示问题的本质是科学研究和研究者们所努力追求 的目标,“准确性”贯穿于研究过程的每一个环节。可重 复性危机的出现不仅会降低公众对科学研究的信任,也 不利于领域内不同研究问题的证据积累。关于可重复性危机的探讨有必要回到“如何提高研究效度”这一根本性 问题上,围绕研究效度反思和推进研究模式、方法的改进 和创新。本文提出“三角互证可以提高运动与锻炼心理 学研究效度”这一基本命题,解释了关于三角互证的两个 基本概念问题,即三角互证是一种研究策略而非研究方 法,三角互证不等于混合方法,其内涵要大于混合方法。三角互证能够较好地控制研究变异,并有助于证据链的 积累。根据三角互证的分类体系,提出了三角互证提高 运动与锻炼心理学研究效度的 4 种方案:资料收集三角 互证、资料分析三角互证、研究者三角互证及方法学三角 互证。方法学三角互证在实际应用中可以表现为 4 种形 式:方法内并行三角互证、方法内前后三角互证、方法间 并行三角互证、方法间前后三角互证。多元方法的流行 传达着研究者对自身发展的理解、反思和对解决现实复 杂性的方法学研判,始终围绕“如何提高研究效度”问题 应用和反思方法,才能使运动与锻炼心理学研究越来越规范。



参考文献(部分)


鲍贵 ,2014. 研究设计中样本量的确定[J]. 外国语文 ,30(5):115-121.

陈向明,2000.质的研究方法与社会科学研究[M].北京:教育科学 出版社.

陈晓萍,徐淑英,樊景立,等,2008.组织与管理研究的实证方法[M]. 北京:北京大学出版社.

范明林,吴军,2009.质性研究[M].上海:格致出版社,上海人民出 版社.

胡安宁,2015.社会科学因果推断的理论基础[M].北京:社会科学 文献出版社.

胡传鹏,王非,过继成思,等,2016.心理学研究中的可重复性问题:从危机到契机[J].心理科学进展,24(9):1504 -1518.

骆大森,2017.心理学可重复性危机两种根源的评估[J].心理与行 为研究,15(5):577-586.

石岩,2004.我国优势项目高水平运动员参赛风险的识别、评估与应 对[D].北京:北京体育大学.

石岩,宋洲洋,2010.中老年人体育锻炼风险认知研究[J].体育与科 学,31(1):73-80.

石岩,周浩,2017.体育运动与人格三大研究主题述评及展望[J].体 育科学,37(7):60-72.

舒跃育,石莹波,袁彦,2019“. 操作性定义”和“证伪标准”不足以为 心理学奠基[J].心理学报,51(9):1068-1078.

苏毓淞,2017.倾向值匹配法的概述与应用:从统计关联到因果推论 [M].重庆:重庆大学出版社


(注:转自“质化研究”微信公众号)


版权所有©山西大学${curChannel.site.name}