一、报告题目:大数据背景下非概率样本统计推断问题
二、报告人:金勇进——中国人民大学统计学院
三、报告时间:2018-6-11上午9:00-11:00
四、报告地点:beat365·中国官方网站会议室90510
五、参加人员:学院相关学科老师及统计学研究生
六、报告人简介
教育部统计学教学指导委员会副主任委员,教育部重点研究基地“应用统计科学研究中心”主任,中国商业统计学会(一级学会)会长,国务院政府特殊津贴获得者,中国人民大学“杰出学者”特聘教授,博士生导师,发表论文180多篇,出版专著、教材、译著30多部,获省部级以上教学科研成果奖20多项。
七、报告摘要
大数据背景下抽样仍然是必要的,但由于数据的大体量、非结构,且数据来源复杂化,难以构造抽样框,无法直接获得入样概率,有饽于传统的样本推断理论,从性质上看,抽出的样本属于非概率样本,如何解决非概率样本的统计推断问题,是大数据背景下抽样调查面临的严重挑战。
本报告将从抽样方法、权数构造、估计方法三个方面讨论非概率样本的统计推断问题。
抽样方法是从目标总体抽样框(包括一系列辅助变量)中抽取一个随机样本,根据辅助变量信息,采取一定的匹配方法,从网络访问固定样本中选择与随机样本相匹配的样本,利用匹配样本实现对总体的估计。
权数构造主要是利用倾向得分,估计非概率样本的入样概率,最终实现非概率样本的统计推断。有不同的倾向得分方式构造权数,不同场景下估计效果也会不同。
估计方法包括,基于构造权数的估计,基于模型的估计,基于贝叶斯的混合估计。