Identification of gasoline blending by infrared spectroscopy based on deep belief networks
-
摘要: 为实现掺混汽油快速无损鉴别,提出一种利用t 分布邻域嵌入结合深度置信网络的鉴别方法,以解决机器学习中高维特征向量间的非线性关系。以92#、95#、98#及定比混合汽油为研究对象,采用多元散射校正算法对原始红外波段投射光谱测量数据进行预处理,利用t-SNE非线性方法进行光谱数据降维处理,分别采用深度置信网络和极限学习机建立汽油种类光谱鉴别模型并对比分析两种方法识别精度。研究表明:该文所选择方法构建的汽油鉴别模型性能更优,对汽油种类预测精准度高达92.5%,从而验证了该方法在汽油鉴别中的有效性。研究结果可为掺混成品油鉴别及溯源研究提供技术支持。Abstract: In order to realize the fast nondestructive identification of blended gasoline, an identification method based on t-distributed stochastic neighborhood embedding(t-SNT) combined with deep belief networks was proposed to solve the nonlinear relationship between high-dimensional feature vectors in machine learning. Taking 92#, 95#, 98# and fixed ratio blended gasoline as the research objects, the projection spectrum measurement data in original infrared band was preprocessed by multivariate scattering correction algorithm, and the dimension reduction of spectral data was carried out by using t-SNE nonlinear method. The spectral identification model of gasoline types was established by using deep belief networks and extreme learning machine respectively, and the identification accuracy of the two methods was compared and analyzed. The research shows that the gasoline identification model constructed by this method has better performance, and the prediction accuracy of gasoline types is as high as 92.5%, which verifies the effectiveness of this method in gasoline identification. The results of this research can provide technical support for the identification and traceability of blending refined oil products.
-
Keywords:
- infrared spectrum /
- deep belief networks /
- blending /
- identification
-
引言
随着我国交通大发展的持续深入推进,用户对汽油的需求呈现爆炸式增长。然而,大量不法企业为追求最大限度利润,擅自用化工原料和添加剂兑制、混配“调和汽油”,给消费安全带来了极大的隐患。因此亟需研究对掺混成品油进行快速鉴别的方法。
由于红外光谱分析技术具有检测速度快、效率高、成本低等特点[1],已被广泛应用于成品油分析领域[2]。Veras等人利用主成分分析(principal component analysis,PCA)结合聚类分析的方法对108个柴油样品的原产地进行分类[3];姜黎等人利用主成分分析结合马氏距离的方法比较汽油的2个特征波段建模的分类效果[4];王丽等人利用主成分分析结合模糊聚类实现了对海洋溢油样本的快速分类[5]。然而主成分分析属于线性降维方法,其不能准确提取光谱数据中的非线性特征,导致光谱数据在降维的过程中部分有用信息丢失及鉴别模型精准度下降。鉴于此,本文采用非线性降维方法中的t分布邻域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法[6]对光谱数据进行降维处理,同时结合深度置信网络方法[7]建立汽油鉴别模型,并与极限学习机鉴别算法[8]进行识别精度对比分析,以解决掺混汽油红外光谱鉴别技术中线性降维方法缺陷和高精度识别模型选择问题。
1 材料与方法
1.1 样品来源与光谱测试
本实验所使用的92#、95#以及98#汽油样品均购置于大庆中石化加油站,掺混汽油样品由92#、95#、98#汽油按照1∶1∶1配制而成,每种样品各50份用于红外光谱测量实验。其中,每种类型取其40份作为训练集,10份作为测试集。
1.2 光谱数据处理
通过实验所采集到的光谱信息不仅包含样本特征信息,还包含外界的干扰因素[9],这些干扰因素会对模型建立造成一定的影响。因此,有必要对原始光谱数据进行预处理[10]。分别采用多元散射校正(multiplication scattering correction,MSC)、标准正态变换(standard normal variate,SNV)以及一阶导数对原始光谱数据进行预处理,从而选择最适合本文的预处理方法。
红外光谱数据通常维度很高,如若将全部光谱数据参与模型构建,将会导致该模型识别效率下降,通常在建立模型之前需对光谱数据进行降维处理,本文采用t分布邻域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法对光谱数据进行降维[5]。
t-SNE算法具体步骤如下:
a) 用条件概率pj|i表示高维空间中邻近数据点xi与xj的相似度,邻近数据点之间的相似度越高,则条件概率pj|i值也就越大,且其服从高斯分布[11],条件概率pj|i计算公式为
$$ {p_{j\left| i \right.}} = \dfrac{{\exp \left( { - \left\| {{x_i} - {{\left. {{x_j}} \right\|}^2}} \right.2\sigma _i^2} \right)}}{{\displaystyle\sum\nolimits_{k \ne i} {\exp \left( { - \left\| {{x_i} - {{\left. {{x_k}} \right\|}^2}} \right./2\sigma _i^2} \right)} }} $$ (1) 式中
$ {\sigma }_{i} $ 为高斯分布标准差。将高维中邻近数据点xi与xj在低维中的映射点记为yi与yj,并计算其相似的条件概率qj|i
$$ {q_{j\left| i \right.}} = \dfrac{{\exp \left( { - \left\| {{y_i} - {{\left. {{y_j}} \right\|}^2}} \right.} \right)}}{{\displaystyle\sum\nolimits_{k \ne i} {\exp \left( { - \left\| {{y_i} - {{\left. {{y_k}} \right\|}^2}} \right.} \right)} }} $$ (2) b) pj|i与qj|i分别表示高维空间中数据点xi、xj与低维空间中数据点yi、yj之间的联合概率,如(3)式和(4)式所示:
$${p_{ij}} = \dfrac{{{p_{j\left| i \right.}} + {p_{i\left| j \right.}}}}{{2n}}$$ (3) $${q_{ij}} = \dfrac{{{{\left( {1 + \left\| {{y_i} - {{\left. {{y_j}} \right\|}^2}} \right.} \right)}^{ - 1}}}}{{\displaystyle\sum\nolimits_{k \ne l} {{{\left( {1 + \left\| {{y_k} - {{\left. {{y_l}} \right\|}^2}} \right.} \right)}^{ - 1}}} }}$$ (4) c) 此时新的代价函数C可以表示为
$${{{\rm{C}}}} = {{KL}}\left( {\left. {{P}} \right\|{{Q}}} \right) = \displaystyle\sum \limits_{{i}} \displaystyle\sum \limits_{{j}} {{{p}}_{{{ij}}}}\log \dfrac{{{{{p}}_{{{ij}}}}}}{{{{{q}}_{{{ij}}}}}}$$ (5) 式中:KL为K-L散度(Kullback-Leibler divergence);P与Q分别为高维空间和低维空间中度量点对分布概率分布。
d) 在低维空间中,t-SNE算法将使用t分布(student t-distribution)代替高斯分布以表示两个点之间的相似度。t分布在低维空间中使用更注重长尾分布,使同类的样本点在低维空间中相隔距离较近,不同类型的样本点相隔距离较远[12]。t-SNE梯度计算式可以表示为
$$\dfrac{{\delta y}}{{\delta x}}{\rm{ = }}4\displaystyle\sum\nolimits_{\rm{j}} {\left( {{p_{ij}} - {q_{ij}}} \right)} \left( {{y_i} - {y_j}} \right){\left( {1 + \left\| {{y_i} - {{\left. {{y_j}} \right\|}^2}} \right.} \right)^{ - 1}}$$ (6) 1.3 基于深度置信网络的汽油种类鉴别方法
1.3.1 数据集处理
数据集中标记的鉴别汽油种类是离散型数据,不能直接参与DBN模型计算,因此在构建DBN模型之前需要利用One-Hot编码进行转换处理。One-Hot编码使用0或1对多个分类或状态进行编码,将每个分类或状态作为独立属性,任意时刻只有其中一个属性有效,将对应的有效属性设置为1[13],4种类型的汽油对应的编码如表1所示。
表 1 同类型汽油One-Hot编码Table 1. One-Hot coding of different types of gasoline类型 92# 95# 98# 掺混 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 1.3.2 深度置信网络鉴别模型
深度置信网络既可以用于非监督学习,也可以用于监督学习,其由多层受限玻尔兹曼机(restricted Boltzmann machines,RBM)组成,通过训练各个神经元之间的权重和偏置,可使整个神经网络以最大概率生成训练数据[14]。DBN一般由3层或3层以上神经元构成,神经元分为显性神经元和隐性神经元。显性神经元接受输入数据,隐性神经元提取数据的特征,其中每一个神经元代表数据向量的一维。与传统方法相比,DBN不仅有多隐层的深度结构,而且通过逐层训练学习以获取特征,能够刻画出数据更丰富的内在信息,使分类和预测更加容易[15]。
DBN模型如图1所示,第一层为输入数据的可见层,输入不同类型汽油光谱特征向量,数据经过2个隐层逐层训练后到达最后Softmax分类器,Softmax分类器输出汽油种类。
DBN模型中核心部分是RBM,RBM是一种层内无连接、层间全连接的两层神经网络[16],其结构如图2所示。
图2中,ai和bj分别为可见层神经元和隐层神经元的偏置值,wij 为
层间相连的神经元的权值。 RBM中状态(v,h)的能量函数如(7)式所示,其函数值越小,则表示此时的RBM处于理想状态,汽油类型鉴别的错误率也就越低。
$$E\left\{ {v,\left( {h\left| \theta \right.} \right)} \right\} = - \displaystyle\sum\limits_{i = 1}^n {{a_i}} {v_i} - \displaystyle\sum\limits_{j = 1}^m {{b_j}} {h_j} - \displaystyle\sum\limits_{i = 1}^n {\displaystyle\sum\limits_{j = 1}^m {{v_i}} } {w_{ij}}{h_j}$$ (7) 此时,RBM的可见层与隐层对应的神经元激活概率可以表示为(8)式和(9)式:
$$p\left\{ {{h_j} = \left( {1\left| v \right.} \right),\theta } \right\} = \sigma \left( {{b_j} + \displaystyle\sum\limits_i {{v_i}{w_{ij}}} } \right)$$ (8) $$p\left\{ {{v_j} = \left( {1\left| v \right.} \right),\theta } \right\} = \sigma \left( {{a_i} + \displaystyle\sum\limits_j {{v_j}{w_{ij}}} } \right)$$ (9) 式中,σ为sigmoid激活函数,计算方法如(10)式所示:
$$\sigma \left( x \right) = \dfrac{1}{{1 + {e^{ - x}}}}$$ (10) 为了提高DBN模型的训练速度,Hionton等人提出了通过对比散度算法(CD-K)来构建可见层节点概率分布,其发现当K=1时,即只进行一步Gibbs采用便获得比较好的学习效果[17]。
2 结果与讨论
2.1 透射光谱分析
汽油样品红外光谱图如图3所示,从中可以看出,不同型号汽油样品的红外光谱大致相同,很难用肉眼进行区分。但红外光谱记录物质分子振动情况,而分子振动频率取决于组成原子的质量、化学键以及物质内部结构基团,所以原子的种类和结构基团的组合都可以在红外光谱图上表现出来,即不同物质的吸收谱带也不相同[18]。因此,借助化学计量学的方法可以对不同型号的汽油进行聚类分析。
2.2 原始光谱预处理分析
部分汽油样品原始光谱数据经预处理后的光谱图如图4所示。其中,导数处理虽然可以有效地消除基线和其他背景干扰,使某些未分辨开的重叠光谱分辨开,但是会引入噪声,降低信噪比[19]。MSC主要是消除由于颗粒分布不均匀及颗粒大小不同产生的散射对光谱的影响,其认为每条光谱与“理想光谱”都成线性关系,但在大多数情况下这种情形并不存在,而且光散射引起的背景非常复杂,仅靠校正集的平均光谱作为标准光谱是存在误差的[20]。SNV主要用来消除固体颗粒大小、表面散射以及光程变化对光谱的影响,但是假设乘法效应在整个光谱范围内是均匀的,并不一定能实现[21]。因此,本文所选择的3种预处理方法都有各自优劣之处,需要进一步分析来选择最适合本文的预处理方法。
为确定最适合本文的预处理方法,将MSC、SNV和一阶导数预处理后的光谱数据利用t-SNE算法进行数据降维并将前3个特征向量进行可视化处理,最终得出的结论为经MSC预处理后的4种汽油光谱特征数据不仅各自聚集在一起,而且还互不相交,能够很好地将这4种汽油区分开。因此选择多元散射校正作为建模前的原始光谱数据预处理方法。
2.3 光谱数据降维方法比较及分析
为验证所选择的t-SNE算法具有一定的优越性,因此将PCA算法与t-SNE算法提取到的汽油光谱特征进行特征可视化图以比较分类效果。
选择累积贡献率超过90%的前10个特征代表汽油光谱特征,即将汽油红外光谱数据维度降至10维,将其前3个特征向量进行可视化,结果如图5所示。
由图5可以看出,经PCA算法提取的汽油光谱特征数据分类效果比较差,这是因为汽油的红外光谱中含有非线性特征信息,而PCA属于线性降维方法,不能准确提取红外光谱数据中的非线性特征信息,从而导致光谱数据在降维的过程中部分有用信息丢失,造成模型鉴别精准度下降。
2.4 DBN模型的建立及对比分析
DBN模型中的迭代次数和网络深度会对模型预测精准度产生较大的影响,以模型最终的预测精准度为判断标准来确定其参数。
DBN结构主要分为输入层、隐含层和输出层,其网络深度主要体现在隐含层数量上。又因为t-SNE将汽油样品光谱数据降维至5维,因此将输出层节点数设置为5,输出层神经元的个数需要根据成品油分类数量决定,需要将92#、95#、98#以及掺混成品油区分开,因此输出层神经元的节点数设置为4。为了确定最合适的模型迭代次数,分别将迭代次数设置为50、60、70、80、90、100、110、120、130、140、150和160进行模型构建,当迭代次数为100时,DBN网络模型的识别准确度最高,而其他迭代次数的识别准确度都低于迭代次数为100时的识别准确度,将DBN网络模型的迭代次数设置为100。为了确定模型的最佳隐含层数量,分别建立1至4层隐含层的DBN网络模型,以比较不同隐含层数对模型预测精准度影响。当隐含层数设置为1时,DBN网络模型的识别准确度仅为75%,当隐含层数量增加到2时,DBN模型的识别准确度相较一个隐含层时有较大的提升,识别准确度已到达92.5%,然而继续增加网络模型的隐含层数时,其模型识别度开始降低。因此,所建立的DBN网络模型的隐含层数量为2。因此,构建一个结构为5-10-20-4的DBN网络模型对4种类型汽油样本进行特征学习和分类。
为了进一步验证分类算法有效性,分别利用深度置信网络算法与极限学习机算法建立汽油鉴别模型并比较这两种模型在测试集中的鉴别精准度。ELM模型的识别精准度为80%,而DBN模型的识别精准度为92.5%。由此可见,DBN 模型分类效果更加良好。这是由于采用非线性算法t-SNE对光谱数据进行降维处理,降低了数据在降维过程中有用信息丢失的可能性,再者DBN模型拥有更深层次的网络学习结构,训练网络时采用反向传播微调方法,使得训练后的网络具有更好的识别能力,因而汽油种类鉴别精准度更高。
3 结论
本文提出了一种t-SNE和DBN二者相结合的汽油种类鉴别方法。在对汽油原始光谱数据进行多元散射校正预处理后,利用t-SNE算法对预处理后的光谱数据进行降维以提取光谱特征信息,最后将光谱特征信息作为DBN网络的输入并构建汽油种类鉴别模型,通过在MATLAB上进行测试,最终的实验结果表明优选的方法具有更好的鉴别效果。
-
表 1 同类型汽油One-Hot编码
Table 1 One-Hot coding of different types of gasoline
类型 92# 95# 98# 掺混 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 -
[1] 陈玥洋, 高志山, 郁晓晖, 等. 基于区间组合移动窗口法筛选近红外光谱信息[J]. 应用光学,2017,38(1):99-105. CHEN Yueyang, GAO Zhishan, YU Xiaohui, et al. Screening near infrared spectral information based on interval combination moving window method[J]. Applied Optics,2017,38(1):99-105.
[2] 谈爱玲, 毕卫红. 基于近红外光谱法的多组分复杂溢油源定量建模分析[J]. 光谱学与光谱分析,2019,43(5):86-90. TAN Ailing, BI Weihong. Quantitative modeling analysis of multi-component complex oil spill sources based on near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis,2019,43(5):86-90.
[3] VERAS G, GOMES A, DASILVA A. Classification of biodiesel sing NIR spectrometry and multivariate techniques[J]. Talanta,2009,83(2):565-568.
[4] 姜黎, 张军, 陈哲, 等. 基于不同波段对成品汽油的模式识别分析[J]. 光谱实验室,2010,27(3):1208-1212. JIANG Li, ZHANG Jun, CHEN Zhe, et al. Pattern recognition analysis of finished gasoline based on different bands[J]. Spectroscopy Laboratory,2010,27(3):1208-1212.
[5] 王丽, 卓林, 何鹰, 等. 近红外光谱技术鉴别海面溢油[J]. 光谱学与光谱分析,2009,24(12):1537-1539. WANG Li, ZHUO Lin, HE Ying, et al. Identification of oil spills by near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis,2009,24(12):1537-1539.
[6] VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learing Research,2008,9:2579-2605.
[7] HINTON G E, OSINDERO S, THE Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1554. doi: 10.1162/neco.2006.18.7.1527
[8] YUAN Peipei, CHEN Hong, ZHOU Yicong, et al. Generalization ability of extreme learning machine with uniformly ergodic Markov chains[J].Neurocomputing, 2015, 167: 528.
[9] 郝勇, 陈斌. 近红外光谱预处理中几种小波消噪方法的分析[J]. 光谱学与光谱分析,2006,26(10):1838-1841. HAO Yong, CHEN Bin. Analysis of several wavelet denoising methods in near infrared spectral preprocessing[J]. Spectroscopy and Spectral Analysis,2006,26(10):1838-1841.
[10] 沈永, 郭天太, 孔明, 等. 基于D-ELM的矿井气体FTIR光谱定量分析[J]. 应用光学,2016,37(5):725-729. SHEN Yong, GUO Tiantai, KONG Ming, et al. Quantitative analysis of FTIR spectra of mine gas based on D-ELM[J]. Applied Optics,2016,37(5):725-729.
[11] 王振浩, 杜虹锦, 李国庆, 等. 基于t-分布邻域嵌入的同调机群无监督识别[J]. 电力系统保护与控制,2018,46(22):64-71. WANG Zhenhao, DU Hongjin, LI Guoqing, et al. Unsupervised identification of coherent clusters based on t-distribution neighborhood embedding[J]. Power System Protection and Control,2018,46(22):64-71.
[12] 董骏. 面向数据集的ST-SNE算法高维数据降维研究[J]. 计算技术与自动化,2018,37(4):116-122. DONG Jun. Research on dimensionality reduction of high-dimensional data based on data set oriented ST-SNE algorithm[J]. Computational Technology and Automation,2018,37(4):116-122.
[13] 石文兵, 葛斌, 苏树智. 基于深度信念网络的湖羊维持行为识别[J]. 传感技术学报,2020,33(7):1020-1026. SHI Wenbing, GE Bin, SU Shuzhi. Recognition of maintenance behavior of Hu sheep based on deep belief network[J]. Journal of Sensing Technology,2020,33(7):1020-1026.
[14] 张春霞, 姬楠楠. 受限波尔兹曼机[J]. 工程教学学报,2015,32(2):159-173. ZHANG Chunxia, JI Nannan. Limited Boltzmann machine[J]. Journal of Engineering Teaching,2015,32(2):159-173.
[15] 胡仁伟, 俞玥, 倪明龙, 等. 基于深度信念网络的近红外光谱鉴别莲子粉掺假[J]. 食品科学,2020,41(6):298-303. HU Renwei, YU Yue, NI Minglong, et al. Identification of adulteration of lotus seed powder by near infrared spectroscopy based on deep belief network[J]. Food Science,2020,41(6):298-303.
[16] 金鹏, 夏晓峰, 乔焰, 等. 基于深度信念网络的高维传感器数据异常检测算法[J]. 传感技术学报,2019,32(6):892-901. JIN Peng, XIA Xiaofeng, QIAO Yan, et al. Anomaly detection algorithm for high-dimensional sensor data based on deep belief network[J]. Journal of Sensing Technology,2019,32(6):892-901.
[17] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002,14(8):1771-1800. doi: 10.1162/089976602760128018
[18] 冯丁, 李灯熬, 赵菊敏. 光谱对煤粉发热量检测系统的研究[J]. 应用光学,2014,35(1):111-115. FENG Ding, LI Dengao, ZHAO Jumin. Study on the detection system of pulverized coal calorific value by spectrum[J]. Applied Optics,2014,35(1):111-115.
[19] 郑丽敏, 张录达, 郭慧媛, 等. 近红外光谱波段优化选择在驴奶成分分析中的应用[J]. 光谱学与光谱分析,2007(11):2224-2227. ZHENG Limin, ZHANG Luda, GUO Huiyuan, et al. Application of near infrared spectral band optimization in donkey milk composition analysis[J]. Spectroscopy and Spectral Analysis,2007(11):2224-2227.
[20] 李庆波, 毕智棋, 石冬冬, 等. 基鱼粉产地溯源的近红外光谱判别方法研究[J]. 光谱学与光谱分析,2020,40(9):2804-2808. LI Qingbo, BI Zhiqi, SHI Dongdong, et al. Study on the method of identifying the origin of basic fish meal by near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis,2020,40(9):2804-2808.
[21] 孟庆龙, 张艳, 尚静. 光纤光谱结合模式识别无损检测苹果表面疤痕[J]. 激光技术,2019,43(5):86-90. MENG Qinglong,ZHANG Yan, SHANG Jing. Non-destructive detection of apple surface scars by optical fiber spectroscopy combined with pattern recognition[J]. Laser Technology,2019,43(5):86-90.
-
期刊类型引用(3)
1. 李心怡,孔德明,宁晓东,崔耀耀. 中红外光谱技术的乳化溢油检测方法研究. 光谱学与光谱分析. 2025(03): 631-636 . 百度学术
2. 刘双,马毅,李英超,姜宗辰,杜凯,王斌. 基于BRDF可见光偏振成像技术的海面溢油油种识别研究. 海洋科学. 2024(01): 11-24 . 百度学术
3. 张鑫,张正东,杜彪,王桂萱,刘帆,李琪,李轲. 中红外光谱技术在油品快速分析中的研究进展. 化学试剂. 2024(08): 59-65 . 百度学术
其他类型引用(0)