脆弱家庭的相关研究

0 人点赞了该文章 · 94 浏览

　　普林斯顿大学牵头的这个项目旨在研究人生轨迹的可预测性。研究人员将其命名为“脆弱家庭和儿童福利研究”（the Fragile Families and Child Wellbeing Study），简称为脆弱家庭研究。研究对象是1998到2000年间美国大城市的未婚生子家庭及非婚生子女。

　　1、数据来源

　　为了进行社会学研究，脆弱家庭研究进行了长期而密集的数据收集活动。

　　在锁定要研究的非婚生子女家庭后，研究人员分6次收集数据，分别是在儿童出生、1岁、3岁、5岁、9岁和15岁时。每次的数据收集包含不同方面的信息。

　　随着时间推移，数据收集涵盖的方面不断增多。例如，在儿童1岁时，数据仅包括对母亲或父亲的访谈；等到孩子9岁时，就要增加对孩子的老师及孩子本人的访谈。

　　收集的数据最多由10个部分组成，每个部分有一个特定的主题。

　　例如，第一次收集数据时（孩子出生时），对孩子母亲的访谈包括以下主题：儿童健康与发展、父母之间的关系、父亲的情况、婚姻态度、与远亲的关系、环境因素与政府项目、健康与健康行为、人口特征、教育与就业、收入水平。

　　在第五次收集数据时（孩子9岁时），访谈则涉及以下主题：父母监督与关系、父母管教、兄弟姐妹关系、日常生活、学校、早期犯罪、任务完成与行为、健康与安全。

　　除了上述调查，研究人员还在孩子3岁、5岁、9岁时到孩子家里进行了实地评估，评估内容包括心理测试、生物测量（身高、体重等）及对邻居和家庭的观察等。

　　通过手段，研究团队掌握了翔实的数据。

　　2、人员招募

　　要满足共同任务方法的要求，除了积累数据外，还要有大量研究者参与。

　　组织者采用了联系同事、与希望学生参与的教师合作、访问大学和课程等方式招募参与者。

　　最终，457位来自不同领域、不同职业阶段的研究人员投递了申请，并在之后组成团队参与研究。由于来自不同领域，许多团队使用的机器学习方法并不局限于社会学领域。

　　研究结束后，组织者收到了160个有效结果。

　　3、预测过程

　　在项目进行过程中，组织者将收集的前5次数据制作成一个背景数据集提供给研究人员。根据论文，背景数据集涵盖了4242个家庭、每个家庭有12942个变量。为了保护隐私，组织者排除了遗传和地理信息。

　　第六次收集的数据中，6项作为培训数据被提供，剩余的则用作预测的主题。

　　研究开始后，各组研究人员采用不同方法，基于背景数据和培训数据建立模型，对孩子的人生轨迹进行预测。

　　组织者对比了研究对象的实际情况与各界研究人员提供的预测结果。出人意料的是，在160份报告中，与现实最接近的预测结果也并不准确。

　　论文中写道：“脆弱家庭包含了数以千计的变量，收集这些数据是为了帮助科学家了解这些家庭的生活，研究人员无法对他们未知的数据做出准确的预测。”

　　组织者还注意到尽管研究团队采用了不同的方法来搭建预测模型，但最后的预测结果是十分相似的。即便是差异最大的预测结果之间，不同之处也少于最接近现实的预测与实际情况之间的。换句话说，不同研究团队之间相互预测的准确率会更高。

　　另外，有一些项目（比如某个孩子的GPA分数）被所有团队准确预测了，但也有一些项目的预测结果普遍不准确。这说明误差与被预测家庭的相关性更高，而与采用的预测技术关系甚微。

　　对于研究的结果，脆弱家庭研究的组织者之一马特·萨尔加尼科说：“这些结果向我们表明，机器学习并不神奇，在生命进程方面，显然还有其他因素在起作用。”