基于烟叶化学成分烤烟香型分类模型的建立

申钦鹏，张霞，张涛，雷萍，段沅杏，杨光宇，韩敬美，赵伟，陈永宽，缪明明，刘志华

（云南中烟工业有限责任公司技术中心／云南省烟草化学重点实验室，昆明６５０２３１）

摘要：基于烟叶化学数据建立烤烟香型分类模型，然后对各模型进行筛选比较选出最优模型。首先对１４２个烤烟烟叶样品中的９类成分的６3个指标采用行业标准进行检测，然后采用逐步回归法筛选出１９个烟叶化学成分，依据这１９个指标采用线性判别分析法、Ｌｏｇｉｓｔｉｃ回归、高斯混合模型、分类树、Ｋ最邻近法、人工神经网络和支持向量机七种方法进行建模。通过对不同方法建立的模型采用１００次随机抽取训练集样本和测试样本计算错误分类率，选择错误分类率较低的模型作为优选模型。经比较发现，线性判别法和高斯混合模型建立的两种香型函数能较好地对未知样品的香型进行正确分类，且效果较好。筛选出的两种优选模型对于烤烟香型分类研究具有一定的应用价值。

教育期刊网 http://www.jyqkw.com
关键词：烟叶化学成分；烤烟香型；模型分类法

中图分类号：ＴＳ４４＋１文献标识码：A文章编号：0439－８114（２０15）05－1220-07

ＤＯＩ：１０．１４０８８／ｊ．ｃｎｋｉ．ｉｓｓｎ０４３９－８１１４．２０１５．０5．０49

收稿日期：２０１４－１２－１６

基金项目：云南省科技厅项目“用超临界一气相二维色谱新方法研究卷烟主流烟气中的香气成分”（2014FD078）；云南中烟工业有限责任公司项

目“不同香型烟叶化学成分研究”（２０１２ＪＣ０１）、“云南中烟一、二类卷烟新品开发”（２０１４ＣＰ０１）；云南中烟技术中心项目“SFC-GC-MS的

联用及其在卷烟烟气香气成分中的应用研究”（JSZX2014JC04）

作者简介：申钦鹏（１９８４－），男，湖南衡阳人，助理研究员，博士，主要从事烟草化学研究，（电话）１８６８７５４００２４（电子信箱）ａｓｈｂ３４５＠１２６．ｃｏｍ；

通信作者，刘志华（１９７４－），男，云南勐腊人，研究员，硕士，主要从事烟草化学研究，（电话）０８７１－６５８６９７９２（电子信箱）ｚｈｉｈｕａｌｉｕ＠１６３．ｃｏｍ。

目前利用烤烟中化学成分、致香成分对三种烤烟香型进行模式识别已有相关文献报道［１－４］。在国内的研究中，朱立军等［２］对１１２份市售卷烟样品中２０种化学成分采用逐步判别方法进行判别分析取得了较好的分类结果，Ｚｈａｎ等［４］以６３个中部和６５个上部烟叶为材料，基于其中的６７种致香物质对三种香型进行逐步判别分析也取得较好的分类结果并得到很好的应用。目前在利用化学计量学进行模式识别的过程中，已发展出了各种各样的方法［５］，采用其他类型的方法是否与经典的判别分析方法具有同样的效果，或是效果要好于经典方法，此方面的研究还未见相关的报道。为此，采用目前较为成熟的经典判别分析方法（LDA）、Ｌｏｇｉｓｔｉｃ回归（LR）、高斯混合模型（Mix）、分类树（Tree）、Ｋ最邻近法（KNN）、人工神经网络（CANN）和支持向量机（SVM）七种化学计量学方法，随机抽取不同的训练集和测试集进行分析，拟筛选出分类效果较优且精度较为稳健的模型，以期为烤烟香型分类优化模型的选择提供理论依据。

１材料与方法

１．１材料

２０１１年收集１４２份烤烟样品，分别来自中国１４个省份，１６个品种。其中清香型（简称“清”）５０个，中间香型简称“中”４０个，浓香型（简称“浓”）５２个。本次收集的样品均由全国评烟委员会委员组成的评吸专家组对烤烟香型（清香型、浓香型和中间香型）进行鉴定。

１．２方法

１．２．１分析检测在烟叶化学成分中主要对９类成分中的６3个指标采用行业标准进行检测。６3个指标具体是总糖、还原糖、氯、钾、氮、总植物碱、石油醚提取物、粗纤维素、挥发酸、挥发碱、葡萄糖、果糖、蔗糖、绿原酸、莨菪亭、芸香苷、铁、锰、铜、锌、钠、硼、钙、镁、硝酸根、硫酸根、磷酸根、草酸、丙二酸、苹果酸、棕榈酸、硬脂酸、柠檬酸、亚油酸、亚麻酸、烟碱、降烟碱、麦斯明、假木贼碱、新烟草碱、２，３－联吡啶、叶黄素、胡萝卜素、天冬酰胺酸、组氨酸、丝氨酸、谷氨酰胺酸、精氨酸、甘氨酸、高丝氨酸、天冬氨酸、谷氨酸、苏氨酸、丙氨酸、γ－氨基丁酸、脯氨酸、赖氨酸、酪氨酸、缬氨酸、异亮氨酸、亮氨酸、苯丙氨酸、色氨酸。

１．２．２统计分析方法主要的统计分析程序采用Ｒ－２．１５．３进行。

１）自变量筛选方法。变量筛选方法采用逐步方法，该方法与逐步回归方法较为一致［６，７］。主要通过计算每一逐步过程中所得的Ｆ值与指定值进行判断变量移除或进入，并获得每个变量的Ｗｉｌｋｓ’ｌａｍｂｄａ统计量。

２）建模及评估方法。主要采用了判别分析法［８，９］、Ｌｏｇｉｓｔｉｃ回归［１０］、高斯混合模型［１１］、分类树［１２］、Ｋ最邻近法［１３－１５］、人工神经网络［１６］和支持向量机［１７，１８］七种方法进行建模。通过对不同方法建立的模型采用１００次随机抽取训练样本和测试样本计算错误分类率［１９］，选择错误分类率较低的方法所建模型作为优选模型。

３）隐含层计算。在采用人工神经网络进行建模的过程中，涉及到两个参数的优化，一个是隐含层单元数的确定，另一个是权衰减系数的确定。对于权衰减系数的确定主要参看下面“参数优化选择”中的内容进行优化选择，而隐含层单元数的确定主要采用以下公式进行计算：

其中，ｓ为隐含层节点数，ｍ为输入层节点数，ｎ为输出层节点数。通过式（１）可对各化学成分、致香成分和近红外光谱信息的隐含层数进行选择。

４）参数优化选择。在分类树、Ｋ最邻近法、人工神经网络和支持向量机这四种方法进行建模的过程需要对分类树中树的复杂度、Ｋ最邻近法中最邻近点、人工神经网络权衰减系数及支持向量机中的惩罚因子进行优化选择［１９］。一般情况下，优化参数的选择估计主要通过ＣＶ（交叉验证）方法进行［２０］，本研究主要采用十折交叉验证方法（10－ｆｏｌｄＣＶ）结合“单个标准误”准则对模型参数进行优化选择。

２结果与分析

分别采用逐步回归法筛选后的各化学成分对三种烤烟香型进行建模，各模型建立后分别采用１００次随机抽取训练样本和测试样本计算错误分类率，选择错误分类率较低、分类准确率高的方法所建模型作为优选模型。

２．１基于各化学成分对三种烤烟香型定性建模比较择优

对逐步回归筛选出的还原糖、钾、氮、石油醚提取物、挥发酸、葡萄糖、果糖、蔗糖、芸香苷、铁、锰、铜、柠檬酸、烟碱、假木贼碱、２，３－联吡啶、胡萝卜素、天冬酰胺、甘氨酸这１９个指标与三种香型采用不同的方法进行定性建模，其结果如下。

从图１可知，采用线性判别分析法对三种烤烟香型数据进行定性建模，其中１００次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平较为一致，基本保持在１０％以下，中间香型的错误分类率分布范围较浓香型、清香型广，三种香型综合起来的错误分类率分布范围较小。

从图２可知，采用Ｌｏｇｉｓｔｉｃ回归法对三种烤烟香型数据进行定性建模，其中１００次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平浓香型、清香型较为一致，基本保持在１０％左右，中间香型错误分类率水平较高，为１５％～２０％，中间香型的错误分类率分布范围较浓香型、清香型和总计广，总计的错误分类率分布范围较小。

从图３可知，采用高斯混合模型对三种烤烟香型数据进行定性建模，其中１００次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平较为一致，基本保持在１０％左右，三种香型综合起来的错误分类率分布范围较小。

从图４、图５和图６可知，采用Ｋ最邻近法（ＫＮＮ法）对三种烤烟香型数据进行定性建模，在最邻近点数目优化选择中采用随机抽样的测试误差与ＣＶ误差法筛选的Ｋ值为１；采用１００次随机抽取训练样本和测试样本对不同最邻近点数目构建的模型计算总体错误分类率进行优选后的Ｋ值可为１、３、４、５、６、７、８和９之间的数值，最终指定优化Ｋ值为１。最终利用优化参数所建模型经过１００次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平和清香型较为一致，基本保持在２０％左右，中间香型错误分类率水平较高，为２５％～３０％，浓香型错误分类率水平较低，在１５％左右，中间香型、清香型的错误分类率分布范围较广，三种香型综合起来的错误分类率分布范围较小。

从图７、图８和图９可知，采用分类树法对三种烤烟香型数据进行定性建模，在树复杂度优化选择中采用随机抽样的测试误差与ＣＶ误差法筛选的树复杂度为０．０１；采用１００次随机抽取训练样本和测试样本对不同树复杂度构建的模型计算总体错误分类率筛选的树复杂度没有找到明显较低趋势的值，最终指定优化树复杂度为０．０１。最终利用优化参数所建模型经过１００次随机抽取训练样本和测试样本计算的三种香型与合计的错误分类率水平在浓香型、清香型上较为一致，保持在６０％～７０％，中间香型错误分类率水平较高，在８０％左右，三种香型综合起来的错误分类率分布范围较小。

从图１０、图１１和图１２可知，采用神经网络法对三种烤烟香型数据进行定性建模，主要采用三层神经网络结构，在隐含层节点数选择中采用公式进行计算为９，在权衰减系数优化选择中随机抽样的测试误差与ＣＶ误差法筛选的权衰减系数为０．１５；采用１００次随机抽取训练样本和测试样本对不同权衰减系数构建的模型计算总体错误分类率，筛选的权衰减系数没有找到明显较低趋势的值，最终指定优化权衰减系数为０．１５。最终利用优化参数所建模型经过１００次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平在浓香型、清香型上较为一致，保持在６０％左右，中间香型错误分类率水平较高，为７０％～８０％，中间香型的错误分类率分布范围较广，三种香型综合起来的错误分类率分布范围较小。

从图１３、图１４和图１５可知，采用支持向量法对三种烤烟香型数据进行定性建模，核函数采用径向基函数，在惩罚因子优化选择中采用随机抽样的测试误差与ＣＶ误差法筛选的惩罚因子为０．０５；采用１００次随机抽取训练样本和测试样本对不同惩罚因子构建的模型计算总体错误分类率，筛选的惩罚因子为０．０５，最终指定优化惩罚因子为０．０５。最终利用优化参数所建模型经过１００次随机抽取训练样本和测试样本计算的三种香型的错误分类率水平在浓香型和总计上较为一致，保持在１５％～２０％，中间香型错误分类率水平较高，为２５％～３０％，清香型错误分类率水平较低，在１０％左右，三种香型综合起来的错误分类率分布范围较小。

对以上几种模型１００次随机抽取训练样本和测试样本的总体错误分类率进行比较（图１６），发现线性判别法和高斯混合模型具有较低的错误分类率，可作为１９种化学成分对三种烤烟香型分类的最优模型。

２．２基于１９个化学成分对三种烤烟香型的分类模型信息汇总

基于烟叶中１９个化学成分采用了线性判别分析法、Ｌｏｇｉｓｔｉｃ回归、高斯混合模型、分类树、Ｋ最邻近法、人工神经网络和支持向量机七种方法建立了烤烟香型分类模型，然后对所建模型的分类效果进行了比较，选择分类效果最佳的模型为优选模型，主要是依据１００次随机抽取训练样本和测试样本集的错误分类率，错误分类率最低、分类效果最好的模型为优选模型。具体结果见表１，从表1中可以看出，线性判别分析法和高斯混合模型对烤烟香型判断准确率均达到９０％及以上，因此确定这两种模型可作为优选模型。

３小结

基于烟叶中１９个化学成分分别采用线性判别分析法、Ｌｏｇｉｓｔｉｃ回归、高斯混合模型、分类树、Ｋ最邻近法、人工神经网络和支持向量机七种方法建立了烤烟香型的分类模型，并分别比较了七种模型对１００次随机抽取训练样本和测试样本的错误分类率，最终选择错误分类率较低、分类效果较好的模型作为优选模型。通过比较对烤烟香型分类的结果，发现采用线性判别分析法和高斯混合模型建立的两种香型函数能较好地对未知样品的香型进行正确分类，且效果较好（各项正确率均达到９０％及以上），因此可将这两种模型确定为烤烟香型分类的优选模型。通过本研究确定的两种优选分类模型对于烤烟香型分类研究具有一定的应用价值。

教育期刊网 http://www.jyqkw.com
参考文献：

［１］毕淑峰，朱显灵，马成泽．逐步判别分析在中国烤烟香型鉴定中的应用［Ｊ］．热带作物学报，２００６，２７（４）：１０４－１０７．

［２］朱立军，王鹏，施丰成，等．基于化学成分的卷烟类型逐步判别分析［Ｊ］．西南大学学报（自然科学版），２０１２，３４（３）：９－１３．

［３］ＧＡＯＱ，ＹＵＬ，ＣＨＥＮＬ，ＬＩＵＢＺ，ｅｔａｌ．ＤａｔａｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓｏｆａｒｏｍａｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｏｂａｃｃｏｂａｓｅｄｏｎＤＨＳ－ＧＣ／ＭＳｖｏｌａｔｉｌｅｄａｔａ［Ｊ］．ＣｏｍｐｕｔｅｒｓａｎｄＡｐｐｌｉｅｄＣｈｅｍｉｓｔｒｙ，２０１２，２９（３）：３０９－３１２．

［４］ＺＨＡＮＪ，ＺＨＯＵＦＦ，ＢＡＯＣＹ，ｅｔａｌ．Ｊｕｄｇｍｅｎｔｏｆａｒｏｍａｔｙｐｅｓｏｆｔｈｅｕｐ－ｍｉｄｄｌｅｆｌｕｅ－ｃｕｒｅｄｔｏｂａｃｃｏｌｅａｖｅｓｂａｓｅｄｏｎｐｒｏｐｏｒｔｉｏｎｓｏｆａｒｏｍａｃｏｍｐｏｎｅｎｔｓ［Ｊ］．ＡｇｒｉｃｕｌｔｕｒａｌＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，２０１３，１４（４）：６１２－６１９．

［５］褚小立．化学计量学方法与分子光谱分析技术［Ｍ］．北京：化学工业出版社，２０１１．

［６］ＨＡＢＢＥＭＡＪＤＦ，ＨＥＲＭＡＮＳＪ．Ｓｅｌｅｃｔｉｏｎｏｆｖａｒｉａｂｌｅｓｉｎｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓｂｙ F-ｓｔａｔｉｓｔｉｃａｎｄｅｒｒｏｒｒａｔｅ［Ｊ］．Ｔｅｃｈｎｏｍｅｔｒｉｃｓ，１９７７，１９（４）：４８７－４９３．

［７］ＭＣＫＡＹＲＪ，ＣＡＭＰＢＥＬＬＮＡ．Ｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓｉｎｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ： Ⅱ．Ａｌｌｏｃａｔｉｏｎ［Ｊ］．ＢｒｉｔｉｓｈＪｏｕｒｎａｌｏｆＭａｔｈｅｍａｔｉｃａｌａｎｄＳｔａｔｉｓｔｉｃａｌＰｓｙｃｈｏｌｏｇｙ，１９８２，３５（１）：３０－４１．

［８］ＨＵＢＥＲＴＹＣＪ．Ａｐｐｌｉｅｄ Dｉｓｃｒｉｍｉｎａｎｔ Aｎａｌｙｓｉｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ，１９９４．

［９］ＪＯＨＮＳＯＮＲＡ，ＷＩＣＨＥＲＮＤＷ．Ａｐｐｌｉｅｄ Mｕｌｔｉｖａｒｉａｔｅ Sｔａｔｉｓｔｉｃａｌ Aｎａｌｙｓｉｓ［Ｍ］．ＮｅｗＪｅｒｓｅｙ：ＰｒｅｎｔｉｃｅＨａｌｌ，２００２．

［１０］ＫＬＥＩＮＢＡＵＭＤＧ，ＫＬＥＩＮＭ．Ｌｏｇｉｓｔｉｃ Rｅｇｒｅｓｓｉｏｎ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２００２．

［１１］ＨＡＳＴＩＥＴ，ＴＩＢＳＨＩＲＡＮＩＲ．Ｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓｂｙｇａｕｓｓｉａｎｍｉｘｔｕｒｅｓ［Ｊ］．ＪＲＳＳ－Ｂ，１９９６，５８（１）：１５５－１７６．

［１２］ＢＲＥＩＭＡＮＬ，ＦＲＩＥＤＭＡＮＪＨ，ＯＬＳＨＥＮＲＨ，ｅｔａｌ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅｓ［Ｍ］．Ｃａｌｉｆｏｒｎｉａ：ＷａｄｓｗｏｒｔｈＢｅｌｍｏｎｔ，１９８４．

［１３］ＤＡＶＩＥＳＡＮ．Ｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙ［Ａ］．ＧAUGLITZ Ｇ，ＶO－DINH Ｔ．ＨａｎｄｂｏｏｋｏｆＳｐｅｃｔｒｏｓｃｏｐｙＶｏｌ．２［Ｃ］．Ｗｅｉｎｈｅｉｍ：Ｗｉｌｅｙ－ＶＣＨ，２００３．４８８－５０４．

［１４］ＲＯＢＩＥＮＷ．Ｎｕｃｌｅａｒｍａｇｎｅｔｉｃｒｅｓｏｎａｎｃｅｓｐｅｃｔｒｏｓｃｏｐｙ［Ａ］．ＧａｕｇｌｉｔｚＧ，Ｖｏ－ＤｉｎｈＴ．ＨａｎｄｂｏｏｋｏｆＳｐｅｃｔｒｏｓｃｏｐｙＶｏｌ．２［Ｃ］．Ｗｅｉｎｈｅｉｍ：Ｗｉｌｅｙ－ＶＣＨ，２００３，４６９－４８７．

［１５］ＴＨＩＥＬＥＳ，ＳＡＬＺＥＲＲ．Ｏｐｔｉｃａｌｓｐｅｔｃｒｏｓｃｏｐｙ［Ａ］．ＧａｕｇｌｉｔｚＧ，Ｖｏ－ＤｉｎｈＴ．ＨａｎｄｂｏｏｋｏｆＳｐｅｃｔｒｏｓｃｏｐｙＶｏｌ．２［Ｃ］．Ｗｅｉｎｈｅｉｍ：Ｗｉｌｅｙ－ＶＣＨ，２００３．４４１－４６８．

［１６］ＲＩＰＬＥＹＢＤ．Ｐａｔｔｅｒｎ Rｅｃｏｇｎｉｔｉｏｎａｎｄ Nｅｕｒａｌ Nｅｔｗｏｒｋｓ［Ｍ］．Ｌｏｎｄｏｎ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９９６．

［１７］ＣＨＲＩＳＴＩＡＮＩＮＩＮ，ＳＨＡＷＥ－ＴＡＹＬＯＲＪ．Ａｎ Iｎｔｒｏｄｕｃｔｉｏｎｔｏ Sｕｐｐｏｒｔ Vｅｃｔｏｒ Nａｃｈｉｎｅｓａｎｄ Oｔｈｅｒ Kｅｒｎｅｌ－ｂａｓｅｄ Lｅａｒｎｉｎｇ Mｅｔｈｏｄｓ［Ｍ］．Ｌｏｎｄｏｎ：ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００．

［１８］ＶＡＰＮＩＫＶ．Ｔｈｅ Nａｔｕｒｅｏｆ Sｔａｔｉｓｔｉｃａｌ Lｅａｒｎｉｎｇ Tｈｅｏｒｙ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，１９９５．

［１９］ＶＡＲＭＵＺＡＫ，ＦＩＬＺＭＯＳＥＲＰ．Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏ Mｕｌｔｉｖａｒｉａｔｅ Sｔａｔｉｓｔｉｃａｌ Aｎａｌｙｓｉｓｉｎ Cｈｅｍｏｍｅｔｒｉｃｓ［Ｍ］．ＢｏｃａＲａｔｏｎ：ＣＲＣＰｒｅｓｓ，２００９．

［２０］ＡＮＴＨＯＮＹＭ，ＨＯＬＤＥＮＳＢ．Ｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎｆｏｒｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎｂｙｒｅａｌ－ｖａｌｕｅｄｆｕｎｃｔｉｏｎｓ：ｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓ［Ａ］. ＢａｒｔｌｅｔｔＰ，ＭANSOUR Ｙ．ＣＯＬＴ＇９８Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｅｌｅｖｅｎｔｈａｎｎｕａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔａｔｉｏｎａｌｌｅａｒｎｉｎｇｔｈｅｏｒｙ［Ｃ］. ＮｅｗＹｏｒｋ：ＡＣＭ，１９９８．２１８－２２９．

（责任编辑王晓芳）