观察 | 如何衡量教育公益的成败:循证、效率与有效性的迷思
来源:益盒 Charity Box
作者:He666
2022-07-21
344
领域 教育公平





前 言



日前,美丽中国云南团队邀请益盒研究总监李治霖分享了他对教育公益的思考:在学校教学之外,有哪些实践能够有效促进教育发展?在若干“成功”与“失败”之后,我们要如何客观评价这些成果?什么样的项目能够将1块钱花出100块的效果?每年用于教育的巨额慈善捐款应该怎么花?


支教是很多人接触公益、将目光投向远方的开始,无论是对支教者还是学生,其产生的影响都难以在短期内衡量。当作为亲历者的支教老师看到现实之中的更多“超越影响”(Flow Through Effect)时,则更应从热情走入理性,将理想落实为行动,思考有效改善的手段。这也是把“支教”作为方法、探寻教育之路的意义所在。



活动实录



NO.1 教育的目的、结果及其测量的方法与争议


教育的目的及测量方法


我的标题是“如何衡量教育公益的成败:循证、效率与有效性的迷思”,很多伙伴会想知道怎么评估教育项目,但它实在太难了。每个人对教育都有不同认识:一种常见的观念是,接受教育是为了获得更好的工作,进而拥有更好的生活;很多捐赠人则认为教育是“授之以渔”的赋能干预;教育还关系到社会不平等和阶级跃迁;而参考刘慈欣的《乡村教师》,又有一种观点是教师扮演着传递人类知识的重要角色,如果没有教育,人类的知识不可能一代又一代地进步;当然,教育也关乎创造未来,社会正如一场不断前进的接力跑,教育保证我们每一代人都能站在前人的肩膀上向前走。


图注:教育的目的


正因为教育有很多目的,它很难被浓缩成简单的指标被加以评价和衡量。以刚才提到的不同认识为例,以获得更好工作为目的的教育,可以用受教育者未来的月工资和工作满意度为指标;美好生活这一目的则可以用幸福感加以衡量;阶级跃迁在城乡二元体制下则体现为户口是否迁到城市,以及未来家庭可支配收入的高低等;知识传递则可以通过人群的识字率、未来的学历、学习能力等指标进行衡量,比如国际通用指标(The Program for International Student Assessment)、TIMSS(Trends in International Mathematics and Science Study)等;至于创造未来维度,需要从个体角度上升到群体乃至社会层面,教育对经济增长的促进作用在很多国家已得到验证,环境改善、科技发展等也都依赖于教育。


除了上述结果外,还有很多结果不能用明确指标衡量,比如教育给孩子带来了更健全的三观、更丰满的人格;比如在面对危机时展现的道德感和勇气、对自我潜能的察觉和自我人生的掌控。教育的很多影响是隐性且长远的,是无法简单衡量的。所以需要我们考虑,“什么教育才是好的教育,什么实践才是好的实践”。


寻找好的教育实践就像在洞穴里掘金


我很喜欢的一个比喻是:寻找好的教育实践就像在洞穴里掘金。以结果为导向的思维、量化的工具如同一盏灯,能够照亮黑暗的洞穴,帮助我们找到好的项目和方法。有时,洞穴的其他地方也有金子,只是暂时还未被照亮,所以不是只有能被衡量结果的项目才是好项目,其他地方也可能有好项目。运用现有的工具将能被衡量的结果说清楚,以结果为导向去思考,我们就更有可能找到更多的好项目。


另一句话我也很喜欢,“What is not measured cannot be improved”,即如果成败无法测量,那么进步则无从谈起。我一直认为以结果为导向的思维和量化的工具能帮助我们进步,并指导下一步的实践。


就教育领域而言,已经不是我们想的“不可测量”。此处我简单列举部分与教育结果相关且能测量的指标。




0~3岁是人类大脑发育最旺盛、神经元连接构建最迅速的阶段,该阶段孩子的认知发育、充足的环境刺激很重要,此外还有儿童早期的语言沟通能力、社会情感能力等。以这些指标为出发点,国际教育学、儿童早期营养学等各方面的指标都已经提供了很好的量表。


在3~6岁阶段,即孩子入学前,孩子的营养健康状况、运动体能的发展都很重要。


在6~18岁的基础教育阶段,孩子的生理健康、心理健康、认知能力表现为考试成绩、学习态度等,与他人的交往方式、人际社交能力、自我效能感等都对孩子的未来发展有很大的影响。


在不同成长阶段的发展方向和维度方面,学界已就部分关键指标达成明确共识,维度的测量和对比也都有成熟的工具,在此不过多赘述。


NO.2 教育公益项目的不同评估,方法及其可能性与限度 


指标确定了,怎么知道项目有用?


在有确定结果指标的情况下,如何知道所做的事是成功还是失败?我举两个与支教相关的例子。


第一个例子中,支教老师带班一个学期后,学生学习成绩提高了,能否说明成绩提高是因为支教老师?不能。可能该阶段恰好是春节,父母回家过年,孩子恰好家庭营养跟上了。当我们看到前后的对比时不能将其直接归因于干预,背后可能还有很多其他力量在共同塑造结果。需要考虑“反事实情况”:假设没有支教老师,班级成绩能否提高?在没有支教老师的情况下,班级成绩提高了5分;有老师时则提高10分,所以在能提高5分的基础上提高到10分才是支教项目的真正影响。因果推断过程中反事实思维很重要,需要假设没有干预时会如何。


既然如此,那找一个对照组是不是就可以?未必。另一个例子是老师创建了诗歌社团带领成员们一起写诗,不测量短期学习成绩而测量未来收入。结果发现,接受培训的社团成员未来收入比未接受培训的孩子高,我们猜测原因可能是诗歌训练锻炼了孩子们的想象力和活跃程度。但也有可能是,报名参加诗歌社团的学生本就更活跃、更富有想象力和创造力、更愿意与老师交流,怎么能确定造成高收入背后的原因到底是什么?其中很明显的问题是“选择性偏差”(Selection bias),选择性偏差中最著名的是“幸存者偏差”,二战时美军通过分析飞机上的弹孔位置来加强飞机的防护,一位教授发现结论中的机翼和尾部并不是飞机最脆弱的地方,而是弹孔并不多的发动机位置。造成结论错误的原因在于被击中发动机的飞机根本没能飞回来,这些坠毁的飞机并不在分析的范围内。这就是很明显的选择性偏差。


当我们不知道何种干预导致最终的果,以及存在各种选择性偏差时,如何得知我们的行为所实现的结果呢?目前,学界公认的影响力评估方法是随机干预试验(Randomized Controlled Trial,RCT)。


图注:事实与反事实情况【1】


首先,我们需要参考“反事实情况”,知道如果干预没有发生,事情会怎样。但现实生活中无法找到“如果”,所以对照组很重要。其次,不能主动选择对照组,因为一旦如此就会有很多干扰因素,比如支教老师所带班级成绩提高,如果随意与其他班级比较,就无法得知是不是校方让支教老师接了成绩更好的班级。因此,“随机”很重要,能抹平影响干预的所有差距。随机抽取样本群,再随机分配为干预组和对照组,构建反事实情况,如果两组最终产生差异,其差异也只能来自于干预。



除了RCT外还有很多影响力评估方法。上图的证据质量金字塔中就包含了项目背景信息、专家观点,但这是最低等级的证据;其次是个案汇报、案例汇编,但也不能说明整体情况。再往上是一些非随机干预试验,即虽然有对照组但并不是随机选择的,但至少在尝试用科学的方法评估。随机对照试验很可能伴有“外部效度”,即如果某随机试验只在一处开展过,很可能在另一处失灵。此时需要系统综述,综合很多不同试验看成果和证据。元分析则是剔除那些质量低的数据后,把所有RCT的原始数据重新跑一遍。经过“严格评读文献”(系统综述和元分析)后得出综合的结论,所以RCT方法最早用于疫苗研发,在上世纪80年代开始被广泛应用于社会科学研究。


常见的对RCT的批评是,它不过问什么导致效果变化,而只是测量最后结果的变化。但随着这些年的发展,RCT也不仅仅是这样,现在的研究者们都很注重基于理论的随机对照试验研究,不单纯测量好或不好,而是基于对因果链条的认识去测量,并加以反思和改进。从全球范围看,随机干预试验已被广泛应用于教育领域,自2003年起,两个很重要的实验室J-PAL(反贫困行动实验室,Abdul Latif Jameel Poverty Action Lab)和IPA(贫困行动创新组织,Innovations for Poverty Action)相继成立,都由全世界最顶级的发展经济学家组建而成,并在全世界广泛开展教育研究与试验。


随机干预试验只是影响力评估方法中较好的一种,还有些很多非试验性的方法,而比随机干预试验质量更高的证据则包括系统综述和元分析。近期,陕西师范大学近期出版的《影响评估手册》就介绍了如何使用这些评估方法,是很好的入门读物。



图注:影响评估方法汇总【2】


之所以提到很多与影响力评估相关的事,就是想说明人类有很多认知障碍或缺陷,经常会凭主观臆想去猜想一件事是否有用;但RCT或影响力评估告诉我们,光靠想象是不行的。我在这里准备了一些例子,想让大家一起参与猜一下这些干预到底是有用还是没用。


这些干预有用吗?


第一,如果在2008年,我们在高考前三个月告诉一所乡村学校的贫困学生“如果高考被一本或二本院校录取,将可以得到2500或5000元的资助”。大家觉得这对于他们的高考成绩和大学录取率是否有影响?没有,大家猜对了。一个可能的解释是资助额度不足以激发行为改变;另一个解释则是农村贫困学生面临很多挑战,提供资金只是其中一个方面。这是2008年在中国西北所做的试验,虽然在中国没有成功,但“事前资助承诺”或“有条件的现金转移”其实是最有效的干预之一。【3】


其次,如果在2013年,我们告诉乡村老师“班级成绩提升的百分比最多的老师将获得7000元奖励”,这对班级整体成绩是否有影响?有。研究人员在陕西、宁夏、甘肃进行了三期试验,发现以增加值百分位为规定,给乡村老师提供现金激励,对班级成绩是有影响的。老师会采取措施改善教学行为,并且既照顾了困难学生,也考虑了优等生的需求。当然其中也存在争议,即应试教育和“唯分数论”之间的关系。【4】


再次,每天补充一片多维元素片能否改善中国农村学生缺铁性贫血的情况?缺铁性贫血是中国农村孩子所面临的最大营养健康挑战,将导致孩子的认知发育迟缓和影响孩子的学业表现。而每天补充一片多维元素片可以改善学生缺铁性贫血的状况,提高学生的学业表现。鸡蛋能替代维生素片吗?不能。因为一个鸡蛋的平均含铁量很少,而且相对于多维元素片而言,鸡蛋价格更高。但很多公益组织,包括一些政府支持的项目都热衷于给孩子发鸡蛋,因为鸡蛋更好吃、更容易买到,给孩子吃鸡蛋比吃药更让家长放心。但如果鸡蛋对于改善贫血状况这一关键指标没用,我们是否需要重新考虑一下政策?



图示:鸡蛋和维生素。图源视觉中国


多维元素片和鸡蛋是直接的干预。如果把学生贫血的状况、危害和应对方法告诉家长和校长,能否解决问题呢?仅仅告知,效果很有限,这也是由大规模随机干预试验所支持的结论。那什么方法有用呢?给校长提供额外的补贴:告诉他如果孩子的贫血状况改善,他就能加工资。所以,如果想改善当地学校的贫血状况,就必须结合信息干预与实际的经济激励,单纯的信息干预是不足够的。补贴或激励更能发挥校长的积极性,使其能主动寻找方法来改善学生缺铁性贫血状况、平衡各类教育资源。【6】


此外,学生近视也是中国乡村面临的严峻挑战。研究显示,乡村每6个近视的孩子中有5个没有及时配镜。如果学校直接配发免费眼镜,能否帮助学生显著改善学生成绩?不足够。因为直接发放免费眼镜,孩子很可能不会持续佩戴,对孩子的视力、心理健康的长期改善很可能无效。而提升佩戴眼镜依从率较好的方法是,通过发放眼镜的兑换券的形式提供配镜补贴,但不能是免费的,并且需要家长自己带着孩子去配镜,此外再给予教师一定激励,让他们促进孩子戴眼镜。这种干预效果很好,一幅眼镜带来的成绩提升效果相当于让孩子多上了一年学。这里的问题是:我们以为配眼镜有用,但免费发放效果不好,需要以费用分摊的方式解决。【7】


我的例子说完了,大家猜测的对与错其实不重要,关键是认识到我们主观臆断的评价对于项目效果来说是武断且不负责任的。刚才的例子全部基于在中国所做的随机干预试验,下面是两篇推荐文章:《打开教育政策研究的“黑盒子”——基于理论的影响评估在随机干预实验研究中的应用》【8】、《教育精准扶贫中随机干预实验的中国实践与经验》【9】,背后的机构都是长期植根在中国西北农村地区实施与教育相关的随机对照试验的机构,一个是陕西师范大学教育实验经济研究所,一个是斯坦福的乡村教育行动计划(Rural Education Action Program)。


NO.3 有效与无效的教育类项目分享


从干预的角度思考教育公益


什么是干预呢?干预是社会问题的普适性的解决方案,它不是具体的行动,而是抽象出来的一种解决社会问题的方式。因为它是提炼的,所以我们能更好地研究它,并与其他干预进行对比。


教育干预在国际上共有四种分类:


第一个是需求方的干预,即改变家庭或孩子对于上学的需求,包括刚刚提到的资助承诺。有朋友提到上面的第一个高考资助的例子中提前三个月的时间太短,这也是研究者猜测的原因之一,还有一个原因是上大学能够改变自己的激励已足够大,再增加2500元并不能改变孩子对其重要性的认知,这可能也是资助承诺在中国不起作用的原因。


第二个是学校投入类干预,包括建设学校,提供硬件设备,缩小班级规模等。


第三种是教学方法类干预,比如有条件的转移支付、奖学金项目、向家庭提供教育回报信息等。


第四个是学校管理类的干预,即改善学校管理制度,对教师实行激励等。


这么多不同的干预在发展经济学家眼中,绝大多数教育干预很可能都是没用的,Institute for Education Sciences(教育科学院)审阅了世界各地的90个评估干预的RCT,结果只有12%是有效的,其余88%均无效,甚至有负面效果【10】。可以想见,如果只凭主观臆断去判断干预效果,很可能大部分干预都是没用的。


经过了这样严格的审查,在全世界范围内稳定呈现的有用的教育干预有哪些呢?


第一个是儿童早期发展干预。生命的0~1000天尤其重要,一些关键工作需要进行,如补碘、驱虫、免疫接种、改善贫血和提供维生素A、早期养育刺激等。下图是农村与城市孩子大脑发育的图片,出生时差异不大,但在农村孩子0~3岁期间,因营养补充没跟上或缺乏早期养育刺激而导致大脑“硬件”在入学年龄时相比城市孩子出现差距,进而在学业表现上有很大差异。益盒在这篇对话笔记中,也与中央民族大学的白钰老师详细探讨过这个问题。



图注:儿童早期发展与早期干预的重要性【11】


第二个是弥补认知差距,告知关于教育的好处与作用能以较低的成本促进改变。


第三个是系统的教学方法改变,涉及到为学生和教师开发新的教材,以及培训教师如何教授这些内容。这在全世界各地对学习成果的影响都很大。


第四个是按合适的水平教学“teaching at the right level”。这是由印度的非政府组织首创,即不按照六个年级的阶段划分进行统一教学,而是按照孩子的实际水平因材施教。他们与J-PAL合作做了很多RCT,并推广到了数百万人的干预试验,并达到很好的效果。


第五个是学校供餐,对于提升入学率很有用,但对于学习结果或认知技能很可能没用。印度的一个研究显示,中午给孩子提供校餐,家长可能觉得孩子中午在学校已经吃了,晚上就给孩子做的更简单了,这就是所谓的“挤出效应”,这很可能是导致这一干预对学习结果没有影响的原因。


第六个是货币激励。在全世界各地,有条件的现金转移对提高孩子的出勤率很有帮助。


这些是已被发现长期稳定有效的项目,还有一些有效性存在争议的项目。比如短期职业培训、奖学金、教师激励、学校和社区捐款等。【12】


哪些教育干预在中国被验证了效果?


影响力评估支持的社会干预实验往往具有周期长、成本高、结果不可逆等特点,而这些特点在教育类的干预实验中尤为突出。在中国,教育干预实验研究起步较晚且扩展困难。从2010年左右开始,由中国发展研究基金会、北京师范大学人的发展经济学研究所、斯坦福大学农村教育行动计划(REAP)、北京大学教育财政科学研究所、陕西师范大学教育实验经济研究所(CEEE)为主的机构开始在中国陕西、甘肃、宁夏等地开展一系列随机对照项目。


截至目前为止,我们共找到有关教育干预实验研究论文40余篇。在关注的议题方面,现有的研究主要关注了农村师资质量、教育资源缺乏、营养健康状况差以及早期养育缺乏这些问题。部分研究对于职业教育和学生心理教育也有所涉及。由于教育干预实验的长周期性和节约成本等因素,多篇研究论文往往基于某个干预实验不同时期和不同方面的结果,进一步压缩了已有研究涵盖议题的广度。



陕师大的老师们在这篇文章(上图所示)里详细总结了他们过去所做的数十个教育领域的随机对照试验,及各类干预的效果,非常全面和有启发,推荐大家关注。


此外,还有一些经过影响力评估的教育类公益项目也值得关注,比如:


“养育未来”【13】和“慧育中国”【14】是中国公益领域规模很大、做得很扎实的儿童早期发展项目。儿童早期发展领域的最重要的干预有两个,一个是告诉孩子的监护人,孩子要在什么阶段去做运动、玩游戏、说故事、唱歌等,这对于0~3岁的孩子很重要。另一个是通过营养包进行营养补充。长期来看,这对于孩子未来的收入和生活改善都有关键影响。除了这些比较大型、通过一系列随机干预试验不断完善的项目外,还有一些零星的做过影响力评估的公益项目,比如“真爱梦想-梦想课堂”,在前几年就进行过倍差分析评估【15】,结果发现他们的干预对孩子的财富观有显著改变,对数学成绩有一定影响,但对于梦想课堂本身希望改善的素质教育的影响微乎其微。


“未来希望幼儿班”则是由北京大学中国教育财政科学研究所进行了准试验的倍差分析,发现儿童总体发展水平有提高,但在非认知领域改善程度不高。【16】


“一村一园”是中国发展研究基金会的项目,由北京师范大学人的发展经济学研究中心做了追踪调查,发现对农村孩子学业的有长期影响,但这不是完整的随机干预试验。【17】


“歌路营”是在农村宿舍给孩子们放睡前故事,由北京大学中国教育财政科学研究所开展随机干预试验,发现显著改变校园霸凌情况,也提高了孩子的睡眠质量。【18】


WFP(世界粮食计划署,World Food Programme)的中国学龄前儿童的营养餐项目,也进行了准试验评估,结果发现样本儿童的营养和发育状况变好了,但对整体的营养不良状况、认知能力和社会情感没有显著改善效果。进行更深入的异质性分析后发现,虽然对整体孩子的营养不良状况改善不明显,但对于三岁女孩和五岁男孩的贫血状况下降存在显著影响。这也是做随机干预试验的关键点,不仅看整体情况,也看不同特征的人接受干预后会有什么变化。【19】


NO.4 成本效益思维在教育公益中的重要性与应用


有1000美元,支持哪个项目


最能提升孩子的教育年限?


假如你有1000美元,希望提升孩子的受教育年限,大家猜猜资助哪个项目的效果最好?奖学金、驱虫、资助承诺、发放校服都是已有RCT验证的好项目。


如果1000美元给女学生做资助承诺能提升多少年受教育年限呢?0.2学年。发放服可以提升3学年,基于成绩的奖学金是7学年,那发放除虫药片是多少呢?是139学年,这不是说某个人上了139年学,而是用1000美元买的药片发放给一群特定的孩子,他们总共加起来最多上139年学。



为什么除虫这么有效?在很多欠发达国家,包括中国的西南地区的孩子长期有肠道寄生虫,它会导致孩子营养不良、贫血,同时经常闹肚子,这会影响孩子的入学率和出勤率。但除虫药片很便宜,还能避免孩子肚子痛和因营养不良而上课昏昏欲睡的情况,在确定的结果指标之下,最好的教育解决方案可能不是教育领域的。所以光有效果还不够,还得知道在资源有限的情况下,什么方法能最有效地提升孩子的学业表现。



此处比较的是不同项目、在相同成本的情况下,就最终带来的额外受教育年限的不同结果。不同项目之间有成百上千倍的差异。受教育年限是一个很单一的指标,但我们能看到不同解决方案之间的表现差异有多大。【20】




如果将指标更换为提升学业成绩表现呢?参考陕西师范大学的研究成果【21】,针对不同项目每100美元所能带来的成绩标准差的提升,左边是中国农村的学业表现。针对中国学生,免费眼镜兑换券、微量营养素片、计算机辅助学习中表现最好的是计算机辅助学习。事实上,中国对有效干预的研究都很少,对成本效益的研究就更少了,所以该结论只是部分成立,可能还有很多有效的项目未被评估或没有汇报成本数据,导致我们可能错失很多好项目。右边是在全世界范围内,哪些干预最具有成本效益,其中学校管理类干预非常有效。因为不管在哪,学校管理都非常重要。


上述是基于不同成本提升学习时长和学业表现的两个重要结论。


资源错配和“不够有效”,也是一种教育失败


为什么成本效益重要?


资源错配和“不够有效”,也是一种教育失败。教育的失败有两种,第一是有效性,第二则是资源错配导致“不够有效”。


2021年,张一鸣给老家龙岩捐了5亿元人民币,支持当地的教育事业进一步发展。福建龙岩人均GDP排名全国第37位,当地教育发展也不错。如果我们站在理性的视角来分配这5亿元,有什么方法能更具成本效益地改善中国教育不公平的现状?之前提到每6个近视的农村孩子只有1个佩戴眼镜,按比例简单推算,中国农村还有3000万孩子面临未矫正的视力问题。解决方法很简单,就是给家长发放270元的眼镜兑换券,加上其他项目成本后,只需要1800元左右就能保证孩子长期佩戴眼镜【22】。如果5亿元被用于支持乡村孩子改善视力会怎么样?粗糙地计算,将有185万个孩子的近视问题有可能得到解决,西北数个省份全部的近视农村孩子都可以被覆盖到。所以在中国公益资源尤其匮乏的情况下,我们必须考虑每一笔投入,包括金钱投入、时间投入和职业选择,所带来的影响的差异。


图注:图源福建省龙岩市教育局官网


今天有很多朋友,可能也是益盒分享以来人数最多的一次。原因之一可能是中国教育领域备受关注,大家对教育赋予了很多美好的幻想,所以教育一直吸引着中国30%的慈善捐赠总额,不过,其中超过50%是捐给高校的。


当我们面对这么多的严重的社会问题,但资源却没有配置到最有效的地方,这可能也是一种失败,而失败成本是由那些本可以被轻易改善的孩子来承担的。这就是为什么,如果不认真对待成本效益也将是一种道德、伦理上的失败。本可以救而没救与故意伤害在后果上有没有明显差别,都值得讨论。


NO.5 案例:把“支教”作为方法


回归与支教老师交流的主题。我的公益之旅也始于支教,大学时曾去滇西北的宁蒗支教,这段经历对我有很大影响。我的一些思考,以及后来做公益都是从那时开始的。今天也是想谈谈支教如何与前面的内容联系起来,以及我对支教复杂的感受。


首先,支教不是“一件事”,支教老师可能提升孩子学业表现,可能打开音、体、美的窗户,还可能给学校带来更多资源。所以支教并不是目的,我们必须明确支教的目的是什么,并思考达成不同目的的有效手段。比如英国的一个机构就在全世界范围内寻找对老师来说,哪些改善孩子不同指标的手段有证据支持,同时列出了证据等级和成本【23】。还有一家名为“Social Programs that Work”的机构也在研究不同学生阶段哪些教育项目有用【24】。我认为,无论是对支教项目还是支教老师,多查看这些工具包,看所面临的学生困境和学校问题是否已有被证实有用的改善手段。如果我们将孩子的改善置于首位,那么循证的干预手段能帮助我们有效地达成这一目标。



图源https://educationendowmentfoundation.org.uk/education-evidence/teaching-learning-toolkit


也有人认为,教育不能简化为指标,还有其他影响:比如孩子受到支教老师的影响,成为了卓有贡献的社会人才、成为了优秀的技术工人、或健全了道德品质和三观,找到了自己的良好生活,这都是真实且重要的。我也完全同意,教育不能被简化成几个简单的指标,这同时也是RCT所面临的挑战——“超越影响”(Flow Through Effect),如果仅测量一个指标,确实更加清楚,但也可能迷失了很多其他指标。当我们超越单一指标思考时,还是能看到那些不循证、感性的事仍然很重要。因此,我们既要重视能被测量的部分,也要相信其他方法可能会有“Flow Through”的力量【23】。


“一无所知论”(Cluelessness)是RCT面临的另一个大问题,即长期影响问题。RCT研究最久能追踪到工作和收入,但人生更长的时间是无法测量的,我们对当下举动的长期影响一无所知,而且无法被RCT测量。我认为这不会导向对重视测量的反驳,而是我仍然相信,不能被测量的也有其价值。


最后我想谈谈当时支教时的感受。当我们去做支教时,可能自己才是真正的受益者,但我认为“利己”并不与“利他”完全冲突,我一直相信支教经历带给人的力量终将再次作用于社会改良。于我而言,一切行善和参与公益慈善的热情都源于支教,如果没有曾经的经历,我不会从事公益。支教给我的人生所树立的热情、愿景和信心,长期来看令我获益匪浅。


其次,当我们选择去一个遥远的地方,与一群陌生的孩子待在一起时,我们已经开始看见远方了。除了身边能接触到的、与我们融为一体的命运外,还有很多远方的生命在遭受不公平的对待,而远方对我们也是重要的。“敌视现实,虚构远方”是我很喜欢的歌曲《十万嬉皮》中的一句歌词,我们在支教时会碰到很多问题,但同样的问题很可能也在各处发生着,而他们也与我们有关,这就是为什么我们应该关注远方的生命,支教则是其中很好的一条路径。我们不能一厢情愿地想象什么有用、什么没用,要从最好的证据出发,并且保持耐心。因为大多数人的成就和贡献很少能在年轻时兑现,我们还有很长的路要走。



图注:乡村小学里的小学女生。图源视觉中国


最后,我一直相信,当我们身体力行地去做公益时,就不能再说“我已经在做公益了,还要求我怎样”,“我已经与孩子相处两年了,不能再说我做的事没用”,这是很自负的想法,但许多公益人可能都遇到过这种问题:一方面大家认为你很高尚,但另一方面又觉得你没有影响力。走出这个怪圈的关键是我们得自己走下道德的“神坛”,意识到公益也是一个行业,行业就应该有对比、有绩效、有成绩。(益盒在这个播客节目中分享过类似的观点)超越陈嘉映老师所言的“只可感召,无可谴责”的思维【24】,不断反思怎么能做的更好,这要求公益人自己走出公益设的圈套,去看我们做的事对受助者而言是否真的有用。


我今天的分享就到这里,期待与大家的交流。



听众问答



李治霖:希望今天的分享能给大家带来一些启发,我先回答一下过程中提出的问题。有朋友在对话框里问到计算机辅助学习,它的关键点在于给孩子提供电子设备,通过不同方式去帮助他们:比如让孩子自己在APP上复习所学内容,或者通过“双师课堂”直播优秀教师的课堂内容。


还有朋友提到“队列研究”,这里的“队列”可以理解为样本人群。假设在试验中的队列就是被试验者,可能在对照组,也可能在实验组,对队列进行普通研究就是看两组的差别;也可以长期追踪一个队列,观察长期影响。


#1 很多经试验验证的项目背后的执行主体是谁?我认为支教老师作为基金会支教项目的志愿者,可能与采纳上述干预的项目主体之间存在很大差距。


李治霖:这是个很好的问题。在我刚刚提供的网站和工具中,对于小学或初高中阶段,部分方法是通用的:比如及时给予学习成绩的反馈、缩小师生比、引进阅读方案、接入计算机辅助学习等。支教老师可以对照这份清单或工具箱,看能否使用一些已被证实的好方法。这是一种方式,但效果可能有限。


另一个关键主体是美丽中国。作为一家支教机构,我相信美丽中国对支教已有全面且成熟的认识,在和利益相关方打交道方面也颇有经验。知道干预方法、知道哪些机构在做或提供相关支持后,引入支持机构,这是公益组织能做的。


图注:图源知乎「美丽中国」


但最重要还是尾端的执行者,即基金会和捐赠者。他们能否根据有效且循证的干预理念支持一线行动者或孵化新项目,既是落脚的关键,也是生长出有效公益生态最重要的一环。


#2 益盒目前与教育公益组织有什么样的合作方式?


李治霖:很遗憾,目前益盒还没有与教育领域的公益组织有明确合作,仍处于梳理国内外不同教育干预有效性,并根据评估结果寻找对应公益组织的阶段。这与另一个朋友问到的“如何评估公益组织短期、小型的项目,还是评估都需要长时间的跟踪”相关。


事实上,要求公益组织做随机对照试验是不合理的,因为一场试验至少需要2~3年,成本也高到几百甚至上千万元。那应该如何更好地切入呢?这需要建立在学术研究的基础之上,去思考公益项目能做什么。我今天介绍的很多学术研究成果距离公益实践特别远,这是很不健康的事。学术之所以存在,就是为了指导社会实践,而“社会实践”一般落地为循证的政策设计。但同时,国家自然科学基金所支持的大型队列研究,其实提供了很好的公共学术基础设施,真正想促进改变的公益人应该根据这样的干预来选择项目,站在最好的知识基础上,促进真实的社会改变。


因此,益盒会先看有哪些干预有效,再对与有效干预相关的公益组织进行评估和推荐。事实上,很多有效干预在中国还没有公益组织实施,教育领域也是如此,所以另一个关键在于基金会或公益组织能否基于已有的证据创造新的项目。重要的是,教育领域内学术与公益能否实现连接,而非学术与公益相互割裂:学术高高在上地站在社会生产顶端,公益则完全不需要知识。


针对小型公益组织评估,并非所有项目都需要RCT。很多直接发放物资或救灾、新建学校(事实上,新建学校在许多其他国家,尤其是因为学校离家很远而导致学生入学率低的地方是很有效的干预)等干预之间差别很大。一些小而美、重要的公益实践是需要的,包括“是光诗歌”项目等等。但在面对大规模的教育不平等时,思考“怎么能用好有限的资源实现最大改变?”是值得我们记在心上的。


#3 请问应从哪些有效维度对乡村儿童的音、体、美教育干预成果进行评估?


李治霖:我认为肯定有,音、体、美的差别还是挺大的。比如体育最重要的是增强孩子体质,与很多运动健康指标相关,包括孩子的BMI(身体质量指数)等。事实上,之前消瘦和营养不良是中国农村最大的问题,但现在似乎肥胖是中国儿童面临的最大健康问题,所以体育教育肯定也与这一公共卫生危机相关。


至于音乐和美术,首先回归到希望达成什么效果。比如希望通过音乐和美术拓展孩子的非认知能力,如想象力、社会关系建立、审美水平等,都有很多不同方法。但我不是专家,所以也不能准确地回答。我认为,我们应该超越学科限制去思考希望达成的效果,而且很多工具可以在学术资料库中搜到,当我们想做某件事时,要先用知识武装自己,再进行下一步行动。


#4 作为一线的志愿支教老师,观察研究对学生或班级的有效干预,有什么好的抓手工具和操作方法论吗?


李治霖:我不确定。如果是一线的志愿者老师,更重要的可能是发现问题,能比试验有效方案做的更多。因为很多真实的问题需要长期扎根才能发现,积累对问题的观察很可能比试验某种方案重要。但同时,如果能基于一些干预工具箱去实践,看是否有好的反馈,这也很关键。更好的方式是的确进行了一些系统性、更具变革性的方法论,能不能开发试点推广,或咨询教育研究的老师,用一线的经验去激发研究者设计新项目。


因为RCT不是仅仅停留在测量结果和观察,也涉及对一个问题因果链的认识。支教老师在项目前端,虽然能接入学术的东西,但在前端发现问题,并找到有效的方法,也能够启发学术研究和后期的规模化。具体的工具我倒很难说,不好意思。


#5 有没有研究比较过线下支教(比如美丽中国)和线上支教(比如情系远山的双师课堂)的有效性?


李治霖:我没有比较过线下支教和线上支教的有效性,但至少线下支教和线上支教对提升学业表现的有效性在国际教育干预中都被验证过。在国际关系里中,线下支教叫“contract teacher”,请一些合同制老师去欠发达国家教学;线上支教与计算机辅助学习和远程教育相关。



图注:受条件限制几个孩子需要共用一台电脑——遵义杉木坪小学AI课课堂。图源知乎「童年一课」


另外,公益中更多使用成本效益(cost effectiveness)而非投资回报率(return on investment)的概念。但就成本效益而言,国内目前还没有对比,但在国际上应该已有研究,我之后也会再留意。


#6 分享中提到RCT结果显示绝大多数公益项目没用,但结尾处又提到我们无法捕捉和评估很多公益项目的长远效果,这两个结论之间似乎有矛盾之处。作为评估机构,既要看RCT,也要认知谦卑,这是合理的;但应该如何指导项目方的行动?是在没有RCT支撑的情况下停止,还是继续执行项目,耐心等待长远效益出现?


李治霖:这是很好的问题,我没有明确的答案。但关键还是不能把对RCT的批评泛化为对清晰的测量结果指标的反对,应该在现有最好的知识基础上反思我们的行为。如果某些事确信其有好的长远影响,并在真实世界中得到了反馈,那就不需要很快地停止;但如果根本说不清短期影响和长期影响,那失败的概率就很大。


我认为,既然我们无法得知长期影响,就先抓住短期影响。短期RCT验证有效的项目在长期来看,很可能比未经RCT验证有短期效果项目更可能带来好的长期影响,这在国外的研究中已得到证实。先基于RCT证据守住短期能发挥好影响的东西,对于长期影响则不断通过积累新的研究证据更新自身认知。对于暂未有RCT证据证明的项目,首先要确保短期内不能有害,其次在真实世界中得到了关于重要性的反馈,我们也不应因其无法测量而轻易判断其价值。我认为这是个相对复杂的事情,很难脱离情境去判定。



参考资料及链接

【1】http://www.progressingeography.com/CN/10.11820/dlkxjz.2013.06.001

【2】http://www.progressingeography.com/CN/10.11820/dlkxjz.2013.06.001

【3】https://reader.elsevier.com/reader/sd/pii/S0272775711000094?token=E425FCA048A52506A5CD33CB041D19AD589D0D4F1730C80C7312305A5ADB247B50AEFB9B083950772D445A8E5AA912F5&originRegion=us-east-1&originCreation=20211020033942

【4】https://reader.elsevier.com/reader/sd/pii/S0272775719300676?token=DF688063E3652B6B601D9C6EC087327C45929C0191D889B06370A6DC04CE55CC6E848B6D0A730970409B3F4588F7AD00&originRegion=us-east-1&originCreation=20211021095939

【5】https://reader.elsevier.com/reader/sd/pii/S1043951X12001253?token=BA17FBD386E34EAD172F5FB59F22BB6F93D0C5C95F5BE43DAC00BB4CF4103A7AF48C528D80CA05CECD5B442C5B7AE95A&originRegion=us-east-1&originCreation=20211020050504

【6】https://www.bmj.com/content/bmj/345/bmj.e4809.full.pdf

【7】https://storage.googleapis.com/plos-corpus-prod/10.1371/journal.pone.0187808/1/pone.0187808.pdf?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=wombat-sa%40plos-prod.iam.gserviceaccount.com%2F20211020%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20211020T055637Z&X-Goog-Expires=86400&X-Goog-SignedHeaders=host&X-Goog-Signature=d3e5c9ac8e278543a56b87bb755a476f0a0de00b9016f359a0fce44541eb1b4eba8a40132e31dbdd717591370072ff847d0c47b85c52a3624ac53a5da370b0d8d2498b1f6cd8476e0461095dcadcc5f605c271aa8e434bdc4e85211b741fabe63e93280951fad445388387d296e2ab8ce54c2d3d86fca3636d10d9bb642f7dcd0a2bc31c2b6a497bfbaf5cb17f1c975b2ba17e50260ac36140ac8542aec1a604eea94ed4eb69732c672a9c65601fb8751ae0b4099e6305950db020621d2b43442302ba96e0e8f47758a4e4565023626144f135bbd6873796a365d041ae4c5d53e652ecbd7bb1ee6f844f746b59e32b0745f88413465a8ff783e7e27850431d1d

【8】https://xbjk.ecnu.edu.cn/CN/10.16382/j.cnki.1000-5560.2020.08.003

【9】https://xbjk.ecnu.edu.cn/CN/10.16382/j.cnki.1000-5560.2020.08.001

【10】http://coalition4evidence.org/wp-content/uploads/2013/06/IES-Commissioned-RCTs-positive-vs-weak-or-null-findings-7-2013.pdf

【11】https://www.semanticscholar.org/paper/Inequality-in-early-childhood%3A-risk-and-protective-Walker-Wachs/5a99629060a3baafa422c9c2d519155d60bc7d99

【12】https://docs.google.com/document/d/1-JzmsKJFHPq3j1vAypy8yZM7NbGRco6e_S5con3TOTI/edit

【13】https://ceee.snnu.edu.cn/yjxm/yywl1.htm

【14】https://www.cdrf.org.cn/hyzg/index.htm

【15】http://www.adream.org/wp-content/uploads/2017/04/2017-04-26-06423026.pdf

【16】https://cdw.cnki.net/kcms/detail/detail.aspx?filename=BDZG202202001045&dbcode=CPFD&dbname=CPFD2022&v=

【17】https://xbjk.ecnu.edu.cn/article/2021/1000-5560/2021-7-107.shtml

【18】https://www.growinghome.org.cn/project/story

【19】https://cn.ifpri.org/archives/7131

【20】https://www.givingwhatwecan.org/charity-comparisons

【21】http://ceee.snnu.edu.cn/info/1344/1114.htm

【22】https://pubmed.ncbi.nlm.nih.gov/35193056/

【23】https://evidencebasedprograms.org/

【24】https://www.aisixiang.com/data/51646.html





发布评论
文明上网理性发言,请遵守评论服务协议
表情
全部评论
0条
最新 最热
加载更多