人口普查数据有疑问???
时间:2021-08-19 16:06:06
手机看文章
扫描二维码
随时随地手机看文章
[导读]前几天,人口普查数据终于出来了,千呼万唤之下。我观察了一下,数据出来了之后,我所在的几乎每个微信群都在聊人口普查的数据。在知乎上这个问题也霸占了一天的热榜第一名,到现在还在第一名。可见,大家对于国家大事有多关心,这是好事。我作为数据分析自然也是对这个事情很关注,昨天我也刷了很久的...
前几天,人口普查数据终于出来了,千呼万唤之下。
我观察了一下,数据出来了之后,我所在的几乎每个微信群都在聊人口普查的数据。
在知乎上这个问题也霸占了一天的热榜第一名,到现在还在第一名。
可见,大家对于国家大事有多关心,这是好事。
我作为数据分析自然也是对这个事情很关注,昨天我也刷了很久的别人写的分析帖子。
其实大家都写的差不多,人口老龄化问题、城镇化问题、城市衰落问题、教育问题。
这些估计大家也都看烂了,我也不想说了。
但是在这些帖子里面,有一个帖子,格外的火。是由某个公众号号主发出来的,在短时间内就达到了10万加。
这个号主也是挺「专业」的,他把历年所有人口普查的数据拿了出来,从1990年到2020年,算了一下总人口和增量,发现了一个不得了的事情。
大家通过上面这个数据能看到从1990到2019年人口的增量处于一直下降的状态。
从2016年国家开放二胎之后,人口增量略有增加。
但是2020年人口增量突然来到了1173万,
如果往前面的五年看,最多的人口增量也才809万,在整体下降的趋势下,怎么可能突然跑出来这么一个数据。
结合之前人口普查的数据一直拖了很久才发出来,这个号主认为,这个人口普查的数据是有很大的问题的!统计局肯定在搞鬼!这么明显的数据错误!
于是很多人相信他,帮他转发,包括我身边有一些高学历的朋友,甚至开始我都被带偏了。
由此可见,在煽动情绪上,这位真的是大牛。
但是,这个数据果真有问题吗?其实不然。
我们看这个表格需要知道一个前提,国家人口普查的数据是这样统计的:
每逢0年,100%人口普查(比如2010、2020年)
每逢5年,百分之一抽样普查(比如2015、2005年)
其他年份,千分之一抽样普查
那么这个抽样普查是怎么进行的呢?统计局曾经发过2015年百分之一抽样调查的抽样方法:
1%人口抽样调查以全国为总体,以各地级市为子总体(其中各地级市的样本量来自于各地级市常住人口的平方根占所属省的比例乘省的样本量),全国分省、地级市采取分层、二阶段、概率比例、整群抽样方法,第一阶段抽取村级单位,第二阶段抽取调查小区。
也就是除了0年之外,其他年份的最终人口普查数据,都是根据模型推断出来的。
我们知道,但凡是模型都会有误差,但是只要误差控制在合理范围内都是能接受的。
统计局同样也知道有这样的误差,所以在《2015年全国1%人口抽样调查工作细则》中也特别提醒道:
样本设计要求全国出生率、死亡率、城镇化率的相对误差分别控制在0.6%、0.8%、0.9%左右。
这里对人口增量的误差范围,没有特殊说明,我们就假设他应该符合最严格的误差要求,就是0.6%.
那么让我们继续回到上面的表格,人口增量2020年是1173万,前面的几年是500万左右。
以2020年普查的数据为准,前几年的抽样调查的平均数据误差在700万,而700万相对于总人口14亿,误差是0.5%,仍然在误差范围内。
其实100%人口普查的方式和百分之一乃至千分之一的统计口径、统计方法本身就是有差异的,如果直接拿来对比必然是存在问题的。
所以再回到上面那篇文章,那位博主的观点,是存在很大问题的。
数据能够让我们看清这个世界。
但是如果落到一些别有用心的人手里,也可能让我们被带偏了。
我观察了一下,数据出来了之后,我所在的几乎每个微信群都在聊人口普查的数据。
在知乎上这个问题也霸占了一天的热榜第一名,到现在还在第一名。
可见,大家对于国家大事有多关心,这是好事。
我作为数据分析自然也是对这个事情很关注,昨天我也刷了很久的别人写的分析帖子。
其实大家都写的差不多,人口老龄化问题、城镇化问题、城市衰落问题、教育问题。
这些估计大家也都看烂了,我也不想说了。
但是在这些帖子里面,有一个帖子,格外的火。是由某个公众号号主发出来的,在短时间内就达到了10万加。
这个号主也是挺「专业」的,他把历年所有人口普查的数据拿了出来,从1990年到2020年,算了一下总人口和增量,发现了一个不得了的事情。
大家通过上面这个数据能看到从1990到2019年人口的增量处于一直下降的状态。
从2016年国家开放二胎之后,人口增量略有增加。
但是2020年人口增量突然来到了1173万,
如果往前面的五年看,最多的人口增量也才809万,在整体下降的趋势下,怎么可能突然跑出来这么一个数据。
结合之前人口普查的数据一直拖了很久才发出来,这个号主认为,这个人口普查的数据是有很大的问题的!统计局肯定在搞鬼!这么明显的数据错误!
于是很多人相信他,帮他转发,包括我身边有一些高学历的朋友,甚至开始我都被带偏了。
由此可见,在煽动情绪上,这位真的是大牛。
但是,这个数据果真有问题吗?其实不然。
我们看这个表格需要知道一个前提,国家人口普查的数据是这样统计的:
每逢0年,100%人口普查(比如2010、2020年)
每逢5年,百分之一抽样普查(比如2015、2005年)
其他年份,千分之一抽样普查
那么这个抽样普查是怎么进行的呢?统计局曾经发过2015年百分之一抽样调查的抽样方法:
1%人口抽样调查以全国为总体,以各地级市为子总体(其中各地级市的样本量来自于各地级市常住人口的平方根占所属省的比例乘省的样本量),全国分省、地级市采取分层、二阶段、概率比例、整群抽样方法,第一阶段抽取村级单位,第二阶段抽取调查小区。
也就是除了0年之外,其他年份的最终人口普查数据,都是根据模型推断出来的。
我们知道,但凡是模型都会有误差,但是只要误差控制在合理范围内都是能接受的。
统计局同样也知道有这样的误差,所以在《2015年全国1%人口抽样调查工作细则》中也特别提醒道:
样本设计要求全国出生率、死亡率、城镇化率的相对误差分别控制在0.6%、0.8%、0.9%左右。
这里对人口增量的误差范围,没有特殊说明,我们就假设他应该符合最严格的误差要求,就是0.6%.
那么让我们继续回到上面的表格,人口增量2020年是1173万,前面的几年是500万左右。
以2020年普查的数据为准,前几年的抽样调查的平均数据误差在700万,而700万相对于总人口14亿,误差是0.5%,仍然在误差范围内。
其实100%人口普查的方式和百分之一乃至千分之一的统计口径、统计方法本身就是有差异的,如果直接拿来对比必然是存在问题的。
所以再回到上面那篇文章,那位博主的观点,是存在很大问题的。
数据能够让我们看清这个世界。
但是如果落到一些别有用心的人手里,也可能让我们被带偏了。