基于数据挖掘的毕业生就业特征实证研究

刘轶彤

（天津职业大学经济与管理学院，中国天津 300410）

【摘　要】本文以现代人才管理和现有的数据库挖掘理论为指导，研究基于数据挖掘和决策树技术，结合某高职院校毕业生管理数据，提出C4.5的决策树算法在毕业生管理系统中的应用。本文对实验过程中产生的毕业生特征分析决策树模型和分类规则做了详细的介绍，发现决策属性在毕业生就业特征类别的决定性作用，以此为高校领导层提供决策支持，提高业务水平、完善的培训机制，对高校课程的开设和毕业生管理指导工作具有一定的意义。

教育期刊网 http://www.jyqkw.com
关键词毕业生信息管理；分类挖掘；决策树

0　概述

数据挖掘的英文表示为Data Mining，其作用就是能够从很多不完整和接近模糊的数据中，提取有价值的数据和信息，这些信息其实就是蕴含其中但是又很难预先发现的有效信息。一般情况下，原始数据就是知识的源头，其分为结构化的，半结构化的，异构型的[1]。知识的获取可以通过多种形式来实现，知识获取之后的应用比较广泛，比如信息管理、信息查询等，甚至可以用来维护自身数据。数据挖掘涉及的学科众多，将多个领域的研究者集中在一起，因此，对数据挖掘进行研究具有较强的理论意义[2]。

1　毕业生就业特征分析

1.1　实验计划

本实验选择某高职院校2013年330名毕业生的存档信息，从中随机抽取264个训练样本作为分析对象，预计从毕业生的多种信息里面，挖掘出优秀毕业生的特征，从而为高职院校人才培养提供决策依据。

1.1.1　信息来源和数据集

分析毕业生的优秀特征情况，从海量数据信息中提取毕业生的基本信息，即毕业生学号、年龄、性别、所学专业、成绩、获奖情况等。数据集snapshottrainN.db，以下是该数据集的部分字段名：id. 唯一的识别号；age. 年龄；sex. 性别；jobs. 所学专业；income. 收入；unprofessiona. 非专业对口；winning. 获奖次数；party member. 是否党员；save_act. 是否低分；Educatione. 成绩；pep. （进行数据挖掘）是否为已经就业的毕业生。

1.1.2　总体分析步骤

数据挖掘为了得出隐藏在数据中的有价值的信息，一般来说，其最后结局是难以预料的，但是站在决策者以及设计者角度来说，要明确问题的方向性和结果性，数据挖掘一旦存在不可以预知性，则表示盲目行事，分析也就难以获得成功[3]。分类挖掘的目的是找出隐含的知识，以便明了化，本实验选择C4.5挖掘算法，对经过转换的数据进行挖掘，对结果进行分析、解释和评估。第一步是数据准备，将毕业生信息管理数据表合成，从中提取与绩效考核成绩相关性较大的特征属性，生成高职院校毕业生管理信息表；第二步是建立模型，包含分类原则和决策树的建立；第三步是对数据进行挖掘并得出规则；第四步是结果分析。

1.2　实验流程

1.2.1　实验准备

在数据源里，海量的历史数据，属性众多，定义繁杂，具有明显的非完整性，数据挖掘前期要从这些海量数据中提取有效的数据。该实验选择信息增益率的方式来明确属性选择，其默认方式选择最高信息增益率作为节点的测试划分标准，由此来保证在信息量需求最小的情况下，也能产生最简单的决策树[4]。在提取信息增益率的时候，利用相关计算公式，提取最高信息增益率的相关数据，将之作为给定集合S的测试属性，并创建出一个对应节点，然后创建分支，再对样本进行划分。

1.2.2　数据归纳

在数据归纳过程中使用面向属性的方法，即建立在数据库中的关系表上，并收集有效数据汇集成表，以分析和泛化各个属性，并将所有和决策规则相关的属性都查询处理，从而建立具有高效的、或压缩或泛化式的数据集合式分类样本模型，目的是减小数据规模，与属性值有关联，不与原始数据产生任何关系，从而更为有效地产生决策树。

对毕业生关系数据库进行相应的处理，提取出有用的信息,得到毕业生就业情况信息表，利用迎合算法对该数据进行转化。

1.2.3　建立决策树模型

分类是数据挖掘中的一个重要目标和任务，不同于聚类，被称为监督学习，对于现有的类别进行较为具体详细的类别性质的描述，对于新的观察值再进行类别性分类[5]。本实验采用决策树方法对毕业生特征进行分类挖掘，建立的训练集从实用角度考虑，并不复杂，故考虑选择ID3或C4.5算法，为了完成数据挖掘的任务，本实验选用C4.5算法对数据源进行挖掘和分类。

在330名毕业生的存档信息资料中，随机抽取264个数据，占总数据的八成，把它们当作训练样本S；剩下二成的数据作为测试集，按预定类别将毕业生分为普通毕业生、优秀毕业生两类。生成决策树必须遵循一定的算法，生成原则依据Generate_decision_tree从原始训练数据中生成一棵判定树；数据导入依据训练样本samples，是离散值属性，属性群为attribute_list；数据导出为一棵判定树。生成步骤如下：

(1)第一步需要根据训练数据来确定节点N；

(2)If samples同属于类C then；

(3)需要返回N当作叶节点，标记为C类；

(4)If attribute_list如果为空缺或者丢失 then；

(5)需要返回N当作叶节点，并标记。以samples中一般的类标记为其属性；

(6)抽取attribute_list中信息增益高的为首选；

(7)标记test_attribute为分类节点；

(8)For each test_attribute内已知值ai；

(9)N为属性再生成一个满足test_attribute=a．的分枝；

(10)假定Si为samples中test_attribute=a．的样本集合；

(11)假如Si为空值，then；

(12)附加一个条件树叶，标记为samples中一般类别；

(13)Else 加上一个由 Generate_decision_tree(s1，attribute_1ist_test_

attribute)返回的节点。

在数据挖掘过程中，决策树方法的本质是利用大量的分类数据进行筛选，根据筛选后的数据挑选出具有价值的信息。本实验利用C4.5算法创建决策树，决策属性信息增益率的计算方法如下：

在S中，有s个数据样本包含的集合，其中的个别属性分别获得m个不同的值，那么就会产生 m 个不同的类别Ci{i=1，2，……，m}。如果类别Ci中的样本个数为ri，那么期望信息量为I（Su，Ｓ2j，…，）=,其中Pi为任意一个数据对象属于类别 Ci的概率。在类别属性A中，包含了v个不同的值{ a1，a2，……,av}。那么集合S就可以这样来划分，在类别属性A的基础上，分解成v个子集{ S1，S2，……,Sv}，其中Sj包含集合S中属性A取aj值的数据样本。如果测试属性是属性A(也就是用属性A划分当前样本集)，如果子集Sj属于类别Ci的样本数为Sij，那么就可以用类别属性A对当前样本集合所需的信息熵划分，可以用此公式进行计算，对于给定子集 Sj，I，Sj中样本属于类别Ci的概率。信息增益为 Gain(A)=I(r1，r2，……，rm)-E(A)，信息增益率为Ｒatio(A)=Gain(A)-E(A)。

用上述方法计算每个属性得到各自的信息增益率，将集合S的测试属性新建节点，并标记该属性，继续创建分支，最后进行划分即可。

选取较具典型意义的数据，将其输入训练集，通过一个Table节点（Output\Table）与源数据连接，Excute（执行）Table结点即可。插入一个变项文件节点（Source\Var.File），双击该节点，在File框输入snapshottrainN.db的物理路径。

在建模之前，首先将一个类型节点Type Node加到目前的流程中，点击Read Values以读取数据。利用年龄、专业、性别、成绩、是否党员等因素分析优秀毕业生的特征，故将id的Direction设为“None”，将pep设为“Out”，其他字段设为“In”。通过一个Table节点（Output\Table）与源数据连接，Excute（执行）Table结点即可。

经过计算，可以得到属性里性别的信息增益最大,也就是说属性中性别提供的信息量最大,对于分类帮助最大,所以选择性别作为根节点，由此引申两个分支出来，把训练实例集分成两个子集，从而生成决策树，其中含有两个叶节点。选择学生所学专业的分裂性属性，把叶节点进行分裂，分成3个子集，依据收集用户的基本情况、在校期间的各项表现、基本工作状态意向等数据信息，其中这些数据有些是直接获得的，有些是调查获得的，有些是通过计算获得的。建立一个C4.5结点（Modeling\C4.5）与Type节点相连[6]。使用同样的方法，来分析其他节点，目的就是要产生整棵决策树。

1.2.4　连接模型

将得到的回归模型加入到Type节点，双击C4.5结点可对其进行编辑，这里取其Model name为默认值“Auto”（进入法），其他选项不做修改，Excute（执行）该节点。

1.2.5　分析模型

将模型图标与Type节点相连，再添加一个“分析”节点，执行Analysis节点显示预测值和真实值的匹配程度如何的信息。执行C4.5结点即可得到判断优秀毕业生取值的决策树模型，Browse查看模型结果。

1.3　优秀毕业生特征规则挖掘

在众多特征中，性别属性是具有强烈差异的信息增益率值，所以选择性别为根节点。任何一个分支都可以重复以上方法，生成决策树。

从数据挖掘结果来看，通过决策树的显示信息，能够直接提取分类规则（如果IF，那么Then）：

(1)如果毕业生为男性，那么，毕业生至少一半为已就业的毕业生，而女性相对而言已经就业的毕业生较少。

(2)如果专业为热门专业，那么已经就业的毕业生较多。

(3)如果各科成绩为优秀，那么已经就业的毕业生较多。

(4)如果毕业生年龄小于或等于21岁，已经就业的毕业生并不多。

2　毕业生就业特征的决策分类模型的实现

在数据挖掘技术中，决策树是常用的方法，其运行方便，能够较快速地分析数据。在众多的决策树方法中，C4.5算法是应用最广泛的方法之一。本文先介绍决策树方法相关知识，然后介绍其主要算法，而且详细分析决策树在毕业生就业环节中的作用。本文以某高职院校的毕业生资料为原始数据，在海量资料和数据中，采用数据挖掘的方法，找出其关联性。整个分析过程，实际上就是不断去噪的过程，对毕业生就业特征进行分析，分析了毕业生就业的敏感规则[7]。

C4.5算法在毕业生特征挖掘中，第一步就是选择性别属性作出初次分类，即专业、学习成绩等各方面均产生相应决策树，可以看到学习成绩具有一定的说服力。

分析时，使用数据库里的相关数据，分析毕业生的各种类别性属性特点，然后再选取、清理、转换数据，通过使用决策树中的C4.5算法确定类别模型，并明确分类标准，从而观察分析归纳优秀毕业生的关键特点。研究发现，相对同种专业时，成绩好的毕业生表现更为优秀[8]。当非本专业的毕业生在表现上更为突出。无论是否为本专业，获奖荣誉多的，就业可能性更高。以上实验结果和已选参与研究的高职院校实际情况基本相符。

3　结语

本文建立了一个基于毕业生就业信息的关联规则挖掘模型，真正的将数据挖掘技术应用到毕业生就业发展行为中，并给出特定数据集下毕业生就业发展行为的决策树分类模型。将模糊数据挖掘技术应用于大学生发展中，挖掘出一些有用的规则信息，通过这些信息可以得出哪些信息对毕业生就业影响较大，从而为学校管理者制定培养学生计划提供参考。

教育期刊网 http://www.jyqkw.com
参考文献

［１］张轲智. 基于web的数据挖掘系统设计与实现[D].电子科技大学,2013(03):31-35.

［２］牛胜利. 基于数据挖掘的商业银行客户关系管理研究[D].财政部财政科学研究所,2013(05):78-79.

［３］王惠中,彭安群. 数据挖掘研究现状及发展趋势[J].工矿自动化,2011(01):64-66.

［４］张秋菊,朱帮助. 基于自组织数据挖掘的电子商务客户流失预测模型[J]. 企业经济,2011(01):101-103.

［５］丁静,杨善林,罗贺,丁帅. 云计算环境下的数据挖掘服务模式[J]. 计算机科学,2012(06):32-34.

［６］刘大有,陈慧灵,齐红,杨博. 时空数据挖掘研究进展[J].计算机研究与发展,2012(12):45-47.

［７］王沛训．高职院校信息化建设的几点建议[J]．华章，2011(05):162．

［８］贾玲玲．数字化校园建设的意义及实施策略[J]．河南农业，2010(22):5-6．.

［责任编辑：曹明明］