• 收藏
  • 加入书签
添加成功
收藏成功
分享

大数据透视下年轻人心目中的幸福赣州

刘俊 史珍珍
  
风采媒体号
2023年4期
江西理工大学理学院 江西赣州 341000

打开文本图片集

摘要:一个城市发展潜力的核心支撑是人口,特别是年轻人群体。基于此,结合当前赣州的基本现状,找出当代年轻人留守赣州的若干潜在影响因素,并进一步明确哪些因素起到决定性作用。通过高效的数据采集途径获得样本数据,然后借助大数据挖掘中的重要理论——决策树模型,以及功能强大的数据分析工具——RStudio软件,对采集的大样本数据进行专业分析和挖掘,得到客观、真实的数据分析结果,最终将分析结论回归到实际问题中来解读。这些准确、详细、客观的数据挖掘结论,可以为相关政府部门在制定相关政策的过程中提供理论支撑和实践智慧。

关键词:人才留守;大数据分析;决策树;R软件应用

1.引言

一个城市发展潜力的核心支撑是人才,特别是年轻人才,人才势必会成为城市发展的一个重要推动力。对一座城市而言,如果没有人才做支撑,很难实现经济由高速增长向高质量发展转型,甚至会在新一轮竞争中处于相当不利的局面。近段时间来,各地均在出台力度罕见的人才吸引政策,爆发“抢人大战”,尤其是对青年人才的抢夺,掀起了一场人才引进竞赛。要在这激烈的人才大战中抢占一席之地,除了拼待遇、拼区位、拼硬件,更需要在情感沟通、破解难题、营造好的生活和工作环境等方面着力,在提升招才引智的“软实力”上下硬功夫。年轻人在就业、创业和生活上,总会面对诸多实际困难,只有知人发展之需,解人发展之困,才能聚年轻人发展之力。所以,本研究的实施目标就是要对当代大学生及已在赣州就业的年轻人士调研“你生活和工作中期待的赣州是什么模样”,为赣州的青年人才引进策略提供可靠的理论支撑和现实决策,对幸福赣州的发展具有重要的现实意义。

如前文所述,本研究的核心目标是试图找出影响年轻人对幸福赣州期望的若干因素,并进一步挖掘出哪些原因起到重要作用。基于此,有针对性地设计调查问卷,设定目标变量——留守赣州意愿,深层次、多维度、广覆盖地挖掘出影响目标变量的常见因素(涉及生活成本、工作薪酬、发展前景、社会福利、基础建设、风土民情、文化传统等),借助特定的试验设计技巧,得到调查问卷。通过两种渠道来收集原始数据:一种是通过网络平台的在线调查收集数据,另一种是面对面调查问卷、实地访谈的随机调查(基于赣南地区主要高校学生)发出大规模的问卷,以期获得大量、多样、低价值密度和真实等性质的数据样本,而后借助于专业的数据分析方法和挖掘手段来拷问数据,得到客观真实的结论。

本研究的核心理论——决策树模型,数据分析工具——RStudio软件。通过对采集的大样本数据进行专业分析和挖掘,得到客观、真实的数据分析结果,最终将分析结论回归到实际问题中来解读。特别地,基于调查数据和研究结果设计量化的“赣州幸福指数”,来直观反映赣州对青年人才的综合吸引力,从而为相关政府部门,提供比较准确、有价值的数据、结论以及可靠的技术支撑。

2.决策树模型相关理念

决策树(Decision Tree)是一种非参数的监督学习方法,旨在由数据学习来得出简单的决策规则,从而创建模型,预判目标变量的结果或将数据先进行分类,再实现预测。也可以说是在各种情况的发生概率都已知的基础上,利用构成的决策树模型来求出不小于零的净现值的期望值的概率,以此来评价一个研究的可能存在的风险,从而判断该研究是否可行的一种决策分析方法。决策树这种决策方法所描绘出的图案就像是一棵树的树干,决策树是一种树形结构。在这棵树上的每一个内部的节点都表示对一个属性的测试,树上的每一个分支都代表着其对应属性的输出,树上每一个叶节点都对应着一种类别。决策树由以下几部分组成:决策点、状态节点、结果节点。其中决策点表示的是对多种不同的可能方案的选择,代表的是被选择的最佳方案。在一个多级决策模型中,一个决策树中可以有不同的决策点,这时最终的决策方案就由决策树根部的决策点来表示。状态节点所代表的经济效果及期望值是属于备选方案的,依照某个标准,对每一个状态节点的经济效果进行比较,来选出最佳方案。从状态节点引出的分支被称为概率枝,其多少对应着可能会出现的自然状态的可能数量,每一个状态出现的概率都要标明在对应的分支上。结果节点的右端用来标注自然状态下的每个方案所取得的损益值。

3.试验设计及数据分析

3.1数据基本情况

数据集“young”一共包含了29个变量和1978个个案。除了目标变量——Q23:其余的解释变量大致可以划分成如下六大类(表3-1):基本属性变量类(2个变量)、基础设施满意度属性变量类(5个变量)、自然人文环境满意度属性变量类(6个变量)、科教文化满意度属性变量类(6个变量)、安居条件满意度属性变量类(5个变量)和人才政策满意度属性变量类(4个变量)。需要说明的是,此分类全凭经验而为,是否符合事实依据需要后续分析验证。

3.2数据分析

3.2.1分析逻辑

将变量“Q23——留赣意愿”确定为目标变量,其余变量当作解释变量,先后基于RStudio软件建立分类决策树和回归决策树模型,深度挖掘出由解释变量刻画的愿意留赣群体,在此过程中,根据需要对模型进行灵活修正。

通过分析前粗糙的统计描述,易见不少变量存在缺失。在纳入分析范畴的变量中,不少变量缺失值比例较大(如Q6_1——Q6_8和Q7_1——Q7_8;Q12_1——Q12_7和Q13_1——Q13_7;Q18_1——Q18_7和Q19_1——Q19_7)。此类缺失为实验者设置的系统缺失,所以可以直接在此数据基础上建立决策树模型,也可以将数据集进行有针对性的缺失处理后,再建立决策树模型。所用的核心算法均为C4.5。

3.2.2结果输出

1.变量“Q23——当代年轻人留赣意愿”的决策树模型一(缺失处理前)

决策树分析最重要的结果显然是树本身,有了决策树结果,凭借分支的粗细和颜色的深浅能够一目了然地找出纯度较高的叶节点——即我们感兴趣的当代年轻人中有留赣意愿的特定群体。

可以看到,在图1的决策树中,用于节点处拆分的变量的优先顺序由高到低均为“Q24——就业机会”、“Q20——薪资满意度”、“Q10——当地风土人情”、“Q29——社会保障完善程度”、“Q2——地区”以及“Q3——道路交通”。其他的所有变量在决策树分析过程中扮演了可有可无的角色。也即有理由认为:这六个变量与目标变量“Q23——当代年轻人留赣意愿”高度关联,是后续研究必须重点关注的对象,而其他变量与目标变量的关联不大。且由变量Q23决策树模型一的节点数据纯度可知:表露出强烈留赣意愿的群体节点为4)、20)以及24);与之对应的是:群体节点21)、11)、25)、13)及7)表露出强烈的不留赣意愿。

2.变量“Q23——当代年轻人留赣意愿”的决策树模型二(缺失处理后)

可以看到,在缺失数据处理后的图2决策树中,用于节点处拆分的变量的优先顺序由高到低均为“Q24——就业机会”、“Q20——薪资满意度”、“Q10——当地风土人情”、“Q29——社会保障完善程度”、“Q22_6——留赣的关键因素6”、“Q3——道路交通”、“Q2——地区”以及“Q9——民众素质和人文文化”。其他的所有变量在决策树分析过程中扮演了可有可无的角色。也即有理由认为:这八个变量与目标变量“Q23——当代年轻人留赣意愿”高度关联,是后续研究必须重点关注的对象,而其他变量与目标变量的关联不大。同样分析变量Q23决策树模型二的节点数据纯度可知:表露出强烈留赣意愿的群体节点为4)、10)、88)以及24);与之对应的是:群体节点89)、45)、23)25)、13)及7)表露出强烈的不留赣意愿。

3.变量“Q23——当代年轻人留赣意愿”回归决策树模型

基于缺失值处理后的数据集,以“Q23——当代年轻人留赣意愿”为目标变量,建立logit回归决策树模型,通过逐步回归可筛选出对目标变量影响显著的解释因子。

显然:变量前系数的符号表示该变量对目标变量的影响是正相关还是负相关,系数绝对值的大小表示该变量对目标变量的影响程度。在回归模型中,对目标变量影响非常显著的解释变量依次为“Q24——对赣州就业机会了解度及满意度”、“Q20——对赣州薪资满意度”、“Q22-6——留赣的关键因素6(便利生活条件)”以及“Q2——户籍地区”,其他影响因子此处不再一一列举。

4.研究成果

4.1当代年轻人留赣意愿探究一

基于缺失处理前数据建立分类决策树模型一,可以得到留赣意愿较高的如下三大类当代年轻人群体:

  • 偏好群体(一)——“Q24< 2.5——了解赣州就业形势&Q20<2.5——对赣州薪资满意度较高”,此年轻人群体的留赣意愿度为0.76216216。

2.偏好群体(二)——“Q24< 2.5——了解赣州就业形势&Q20>2.5——对赣州薪资满意度较低&Q10<1.5——对赣州风土人情了解度和满意度较高&Q2<4.5——江西省内人口”,决策规则与概率方法与偏好群体(一)类似,此处及以下不再列出,此年轻人群体的留赣意愿度为0.67857143。

3.偏好群体(三)——“Q24>=3.5——不了解赣州就业形势& Q29< 2.5——对赣州社会保障满意度较高&Q3<2.5——对赣州道路交通满意度较高”,此年轻人群体的留赣意愿度为0.68627451。

4.2当代年轻人留赣意愿探究二

将上述数据中的系统缺失进行了变量拆分处理,即将原调查问卷中的多选题变量的每个选项当作单一变量后,重新建立分类决策树模型二,可以得到留赣意愿较高的如下四大类当代年轻人群体:

  1. 偏好群体(一)——“Q24< 2.5——了解赣州就业形势&Q20<2.5——对赣州薪资满意度较高”,此年轻人群体的留赣意愿度为0.77642981

2.偏好群体(二)——“Q24< 2.5——了解赣州就业形势&Q20>2.5——对赣州薪资满意度较低&Q10<1.5——对赣州风土人情了解度和满意度较高”,决策规则与概率计算方法与偏好群体(一)类似,此处及以下不再列出,此年轻人群体的留赣意愿度为0.61594203。

3.偏好群体(三)——“Q24>=3.5——不了解赣州就业形势&Q20>2.5——对赣州薪资满意度较低&Q10>1.5——对赣州风土人情了解度和满意度较低& Q22_6=1——满意留赣的关键因素6(便利生活条件)& Q2< 2.5——赣州市内人口& Q9< 2.5——对民众素质和人文文化满意度较高”,此年轻人群体的留赣意愿度为0.82352941。

4.偏好群体(四)——“Q24>=3.5——不了解赣州就业形势&Q20>2.5——对赣州薪资满意度较低& Q29< 2.5——对赣州社会保障完善程度满意度较高& Q3< 2.5——对赣州道路交通满意度较高”,此年轻人群体的留赣意愿度为0.66666667。

4.3 当代年轻人留赣意愿探究三

将数据中的系统缺失进行变量拆分处理,即将原调查问卷中的多选题变量的每个选项当作单一变量后,建立回归决策树模型,有了模型参数的极大似然估计值,就能够得到具体的logit回归分析模型,对照表3-4的参数估计结果,易得如下模型表达式:

需特别指出的是,由于通过逐步回归筛选的解释变量比较多(共有43个),故上述表达式中仅仅呈现了对目标变量影响最显著的4个解释变量,其余的解释变量在模型表达式中均以省略。由模型表达式显而易见,此回归决策树模型结果与前面的两个分类决策树模型高度一致,所以这进一步提升了本项目研究结果的客观性和可靠程度。

5.政策建议

基于上文中的分类决策树模型(一)、(二)以及回归决策树模型的输出结果,可以综合得到一致性的实际结论——吸引当代年轻人留赣意愿的最重要影响因素依次是:对赣州就业形势了解度和满意度、对赣州薪资水平满意度、对赣州风土人情了解度和满意度、对赣州社会保障满意度、留赣关键因素6(便利生活条件)、对赣州道路交通满意度以及户籍区域来源。

有了上述的具体分析结果,如何提升赣州在当代年轻人中的吸引力就变得显而易见。行之有效的举措就是:在持续推进优化推动当代年轻人留赣意愿的影响因素的同时,大力改善抑制当代年轻人留赣意愿的影响因素,具体可在如下几个方面落到实处。

1.强化优势产业、优化产业布局。

此举措能直接提升年轻人对赣州就业形势的了解度和满意度。优势产业是一座城市高质量发展的重要支撑,赣州要持续把产业板块谋划发展作为优化区域产业布局的重中之重,统筹推进传统产业提质发展、新兴产业培育壮大和未来产业前瞻布局,以吸引更多年轻人来赣就业。

2.尊重专业人才、提升薪资水平。

此举措能直接提升年轻人对赣州的薪资满意度。众所周知,科学技术是第一生产力,人才是支撑社会发展的第一资源,也是一座城市能赢得竞争主动权的战略资源。而当代高学历的年轻人是当下和未来专业人才的主力军,所以尊重专业人才、提升薪资水平是赣州能够吸引和留住当代年轻人的基本保障。

3.宣扬苏区精神、弘扬客家文化。

此举措能直接提升年轻人对赣州风土人情的了解度和满意度。赣南(赣州)作为红色故都,是原中央苏区主体和核心区域,是苏区精神和客家文化的发祥地,赣南苏区的发展牵动着当下全国人民的心, 在当代年轻人中宣扬苏区精神、弘扬客家文化,势必能让当代年轻人加深对赣州的认识,从内心深处接纳赣州风情,从而有一种留赣的归宿感。

4.完善社会保障、营造幸福赣州。

此举措能直接提升年轻人对赣州社会保障制度和便利生活的满意度。社会保障是保障和改善民生、维护社会公平、增进人民福祉的基本制度保障。好的社会保障体系,是吸引当代年轻人扎根赣州的重要力量。因此,持续提升社会保障,改善民生福祉,构建和谐幸福赣州,是一项利在千秋的大工程。

5.优化道路交通、亮化赣州名片。

此举措能直接提升年轻人对赣州道路交通的满意度。赣州应加快推进市中心城区快速路建设,全力拉开城市框架,加快实现五区互联互通,使赣州真正进入梦寐以求的“高架时代”。奋力构建“畅通城乡、快速融湾、人享其行、物畅其流、人民满意”的道路交通新格局,努力打造道路交通高质量发展的“赣州样板”,从而吸引更多高素质人才留赣发展。

参考文献:

[1]汪金晖.金融数学实用软件教程[M].北京:中国纺织出版社,2019:230-306.

[2]李平.经济蓝皮书:2015年中国经济形势分析与预测[M].社会科学文献出版社,2017:35-69.

[3]曼昆.宏观经济学(第七版)[M].北京:中国人民大学出版社,2011:100-103.

[4]罗默.高级宏观经济学[M].上海:上海财经大学出版社,2014:123-132.

[5]陈希孺.数理统计学教程[M].北京:中国科学技术出版社,2009:26-59.

[6]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2016:22-46.

[7]李洪成,许金炜,李舰.机器学习与R语言[M].北京:机械工业出版社,2017:17-90.

[8] 余文礼.基于Apriori算法和关联度指标的购物篮分析[J],科技视界, 2014:30-87.

[9] 李洪成,陈道轮,吴立明.数据挖掘与R语言[M].北京:机械工业出版社,2013:59-107.

[10]李航.统计学习方法[M].北京:清华大学出版社,2013:20-100.

[11] 李星云.新形势下我国高层次人才引进的思考[J].江苏行政学院学报,2010(06):73-77.

[12]王萍,章守明.区域人才集聚策略研究[J].经济问题,2006(11):14-15.

[13]杨静,张楠男,李建,刘延明,梁美红.决策树算法的研究与应用[J].计算机技术与发展,2010,20(02):114-116+120.

[14]杨明,张载鸿.决策树学习算法ID3的研究[J].微机发展,2002(05):6-9.

[15]杨霞,吴东伟.R语言在大数据处理中的应用[J].科技资讯,2013(23):19-20.

*本文暂不支持打印功能

monitor