中国县域发展研究中心
THE CENTER FOR COUNTY DEVELOPMENT RESEARCH
齐秀琳、汪心如:基于机器学习方法的农业转移人口市民化水平影响因素研究

作者简介:齐秀琳,郑州大学商学院副教授,硕士生导师,研究方向为制度经济学和农业经济学;汪心如,郑州大学商学院硕士研究生。

文献来源:《中国农村经济》2024年第5期。


摘要:本文基于2017年中国流动人口动态监测调查数据,系统地运用多元线性回归、惩罚回归、集成学习和深度学习等多种机器学习方法,考察了农业转移人口市民化水平的影响因素。研究结果表明:集成学习方法在预测农业转移人口市民化水平方面明显优于多元线性回归模型,其中梯度提升回归树模型的预测效果最佳;在所有特征变量中,个体的受教育程度、性别、家庭规模、年龄和流动城市数量是影响农业转移人口市民化水平的最主要因素。此外,本文通过累积局部效应图展示了不同影响因素对农业转移人口市民化水平的具体预测模式,并发现年龄和流动城市数量对农业转移人口市民化水平有着明显的非线性影响。这些研究结论对政府进一步推进农业转移人口市民化具有重要参考价值。

关键词:农业转移人口;市民化;机器学习


一、研究背景和选题价值

党的二十大报告明确提出要“推进以人为核心的新型城镇化,加快农业转移人口市民化”。农业转移人口市民化并不仅仅是户口性质的转变,还指从农村转移到城镇的人口能够获得城镇永久居住身份、平等享有城镇居民各项社会福利和政治权利,最终成为城镇居民并完全融入城镇社会的过程。根据国家统计局数据,中国城镇常住人口从2013年的7.31亿人增加至2023年的9.33亿人,年均增长约2020万人,常住人口城镇化率增加了12.43个百分点。然而,受到多种因素限制,大量农业转移人口并未有效实现市民化。快速城镇化和低水平市民化之间的矛盾,不仅直接影响农业转移人口的切身利益,还抑制了消费增长,这在一定程度上阻碍了宏观经济发展。在此背景下,深入考察和厘清农业转移人口市民化水平的关键影响因素,具有十分重要的现实意义。

农业转移人口市民化是一个内涵丰富且复杂的转变过程,理论上受到多方面因素的影响。早期文献主要采用相关性分析方法展开研究。随着经济学经验研究中“可信性革命”的推进,对农业转移人口市民化水平影响因素的研究也经历了范式的深刻变革,即从考察相关关系转向识别因果关系。在这一新研究范式下,倾向得分匹配法、工具变量法和双重差分法等计量经济学方法被广泛采用。虽然这一研究范式的转变极大地推动了学术界对农业转移人口市民化问题的理解,但从更广义的方法论角度来看,无论是相关性分析还是因果推断,本质上都属于解释性建模。

与以往研究不同的是,本文采用多种机器学习方法,通过预测性建模来考察农业转移人口市民化水平的影响因素。相比于解释性建模,本文运用预测性建模展开研究具有三大优势:第一,预测性建模通过放弃估计系数的无偏性,能够更准确地捕捉到农业转移人口市民化水平的影响因素;第二,预测性建模不预设模型的具体形式,因此能够更好地刻画变量间的复杂关系;第三,机器学习可解释性方法的发展,不仅在一定程度上解决了机器学习模型过去常为人诟病的“黑箱”问题,还能够揭示解释性建模无法获取的关键信息。


二、主要内容和边际贡献

本文运用多元线性回归、惩罚回归、集成学习和深度学习等多种机器学习方法,基于2017年中国流动人口动态监测调查数据,系统考察了个体、家庭、迁移以及城市四个维度的特征变量对农业转移人口市民化水平的影响。主要内容如下:首先,通过数据拟合在各机器学习方法中选出性能较优的模型;其次,基于性能最优的模型,利用SHAP值方法测度并比较了不同特征变量对农业转移人口市民化水平的预测能力,以探求不同特征变量对农业转移人口市民化水平的影响差异;最后,利用累积局部效应图展示了几个重要特征变量(受教育程度、家庭规模、年龄、流动城市数量和本地居留时长)对农业转移人口市民化水平的具体预测模式。

本文可能的边际贡献在于:第一,首次综合性地运用多种机器学习方法研究农业转移人口市民化问题,提供与传统解释性建模分析不同的视角和结论,从而丰富相关研究;第二,通过采用前沿的集成学习和深度学习方法,有效规避多元线性回归模型设定上的局限性,在探讨农业转移人口市民化水平影响因素时,更准确地揭示变量间的复杂关系;第三,利用机器学习中的可解释性方法,探讨不同影响因素对农业转移人口市民化水平的重要性,并分析受教育程度等重要影响因素的具体预测模式,这对政府进一步推动农业转移人口市民化具有重要的参考价值。


三、主要结论和政策建议

本文研究发现:集成学习方法在预测农业转移人口市民化水平方面明显优于多元线性回归模型,其中梯度提升回归树模型的预测效果最佳;在所有特征变量中,个体的受教育程度、性别、家庭规模、年龄和流动城市数量是影响农业转移人口市民化水平的最主要因素。此外,本文通过累积局部效应图展示了不同影响因素对农业转移人口市民化水平的具体预测模式,并发现年龄和流动城市数量对农业转移人口市民化水平有着明显的非线性影响。

基于上述结论,本文得到的政策启示如下:首先,应以系统性的政策思路持续推进农业转移人口市民化进程。一方面,政府应明确农业转移人口市民化的中长期目标和阶段性任务,在法规上保障农业转移人口在住房、就业、教育和医疗等方面的合法权益;另一方面,政府应通过制度与组织设计,使不同部门形成合力,出台各种配套措施,确保政府、企业、个人三方在推动农业转移人口市民化进程中的角色和作用得到有效协调。其次,应采取差异化的政策措施,加快农业转移人口市民化进程。在制定与实施政策时,应充分考虑农业转移人口的个体、家庭和迁移特征,结合流入城市的特点,分阶段、分层次地推动农业转移人口市民化。例如,对于初到城市的农业转移人口,重点应放在提供必要的职业技能培训和就业指导上,帮助他们尽快融入城市劳动力市场。对于已经在城市稳定就业的农业转移人口,政府应更多关注其社会保障和住房等方面需求的满足。同时,政府还应着力提升与农业转移人口密切相关的公共服务水平,制定并实施城乡公共服务均等化政策,切实降低农业转移人口市民化的成本。

最后,以提升人力资本为抓手,助力农业转移人口市民化进程。要进一步改善农村教育质量,推动城乡教育均衡发展,整合各类资源,提升农业转移人口人力资本,使其更有能力实现市民化。具体措施包括加强农村教育基础设施建设、优化对农村教师的激励机制、推动现代教育技术在农村教育中的应用,以及建立城乡教育资源共享机制,促进教育资源均衡分配等。