姚 森1,2,劉鴻高1,李 濤3,李杰慶1,*,王元忠2,4,*
(1.云南農業大學農學與生物技術學院,云南 昆明 650201;2.云南省農業科學院農產品加工研究所,云南 昆明 650221;3.玉溪師范學院資源環境學院,云南 玉溪 653100;4.云南省省級中藥原料質量監測技術服務中心,云南 昆明 650200)
摘 要:采集5 種共272 份牛肝菌樣品的傅里葉變換紅外光譜和紫外光譜,結合多光譜信息融合策略,建立牛肝菌種類快速鑒別的方法。多元散射校正(multiplicative signal correction,MSC)及二階導數(second derivative,2D)等預處理方法對原始光譜進行優化,比較優化處理對區分不同種類牛肝菌影響;利用優化處理后的光譜數據及融合數據建立偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)模型和支持向量機(support vector machine,SVM)判別模型。結果顯示:1)經過2D和MSC預處理后,不同種類牛肝菌的PLS-DA鑒別效果優于未優化模型,表明2D+MSC預處理優化了光譜信息并提高了分類準確度;2)基于傅里葉變換紅外光譜、紫外光譜、低級融合和中級融合數據分別建立PLS-DA模型,預測正確率為86.87%、66.67%、78.89%和95.56%;建立SVM判別模型,預測正確率分別為88.89%、74.44%、91.11%和100.00%,表明中級融合技術對不同種類牛肝菌鑒別效果顯著,優于其他技術;3)中級融合技術在PLS-DA模型和SVM判別模型中對樣品的預測正確率分別為95.56%和100.00%,表明SVM判別模型對牛肝菌種類區分效果優于PLS-DA模型。采用中級融合技術建立SVM判別模型,快速鑒別牛肝菌種類,為牛肝菌種類鑒別和質量控制提供可靠、穩定的方法。
關鍵詞:數據融合;牛肝菌;種類鑒別;紫外光譜;傅里葉變換紅外光譜
牛肝菌是牛肝菌目(Boletales)大型真菌,除了少數品種有毒、味苦不能食用外,大部分品種可以食用[1]。其菌肉肥厚,味道鮮美,口感細膩,富含蛋白質、纖維、多糖、維生素和鐵、鋅、鈣等礦質元素,同時具有抗氧化性、抗腫瘤、抗病毒、健胃等藥用功效,是天然的保健食品,兼具食藥用價值,深受國內外消費者青睞[2-3]。
云南是我國牛肝菌種類最豐富的地區之一,已知牛肝菌224 種,其中可食用牛肝菌144 種[4]。牛肝菌種類繁多,形態相似,采用傳統方法觀察鑒別難度大,因誤采誤食造成中毒事件時有發生[5],目前對快速、有效鑒別牛肝菌種類的研究較少,同時市場上對食用牛肝菌分類模糊,以次充好的現象屢見不鮮。李艷春等[6]研究了市場上4“種”常見牛肝菌的DNA條形碼,結果表明4“種”牛肝菌樣品代表了12 個物種;Dentinger等[7]對超市購買的中國云南出口美味牛肝菌進行DNA測序分析,發現同一包裝袋內15 片牛肝菌中有3 種新牛肝菌物種。現今,市場上的欺詐行為嚴重威脅消費者健康,損害消費者利益,擾亂食用菌市場。準確鑒別野生牛肝菌是保障消費者安全,維護人民利益,進一步開發利用和加強市場質量監控的重要前提。
目前,食用菌鑒別分類研究主要集中在光譜法和分子生物學方法。Moha?ek-Gro?ev等[8]采集30 個不同屬野生菌的紅外光譜,對光譜信息進行解析,結果顯示不同野生菌樣品的紅外光譜差異明顯,其中1 200~1 000 cm-1的差異可以作為不同屬野生菌的特征區。楊天偉等[9]采用紫外光譜(ultraviolet spectroscopy,UV)技術結合主成分分析對不同產地、種類可食用牛肝菌進行研究,結果表明其紫外圖譜具有指紋特性,主成分分析顯示不同種類牛肝菌對營養成分積累有明顯差異,可以用于鑒別不同產地、種類食用牛肝菌。Mello等[10]根據ITS片段設計引物,采用分子生物學方法成功鑒別銅色牛肝菌(Boletus aereus Bull.)和美味牛肝菌(B. edulis Bull.)。單一的光譜法對樣品有效信息提取率低,容易受到各個因素(如溫度、濕度、CO2濃度、溶劑等)影響;分子生物學方法費用昂貴,操作復雜,不適合推廣應用。
數據融合是將多個來源信息加以過濾、優化、整合,得到更加準確、可靠的數據信息,其目的是通過各儀器間協同作用,獲得比單一技術更準確的分類結果[11-12],已被廣泛應用于食品、飲料的鑒別和質量評價等領域[13-16]。數據融合分為低級融合、中級融合和高級融合,低級數據融合是將不同儀器獲得的數據進行簡單的串聯,形成更全面的數據集[17];中級融合是將不同來源的數據經過特征提取,并對選取特征變量(如主成分)進行整合,去除干擾信息,從而獲得更加豐富、系統的數據集[18-19];高級融合為決策級融合,結合兩個或兩個以上分類模型得出最佳鑒別結果[20]。目前,大多數學者采用低級或中級融合技術,僅10%的研究采用高級融合技術[21]。在本實驗中,中級融合分類正確率已經達到100%,因此不對高級融合進行深入的研究分析。
本研究采用傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,FTIR)法和UV法,具有花費低、速度快、靈敏度高、可靠性強等優點[22-23]。采用二階導數(second derivative,2D)、多元散射校正(multiplicative scatter correction,MSC)、數據融合等方法優化樣品信息,通過偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)和支持向量機(support vector machine,SVM)比較FTIR、UV、低級融合和中級融合技術對不同種牛肝菌的分類效果,快速及有效鑒別野生食用菌,為加強市場監控提供理論基礎與科學依據。
1 材料與方法
1.1 材料與試劑
實驗所用5 個不同種類牛肝菌(皺蓋疣柄牛肝菌、栗色牛肝菌、小美牛肝菌、美味牛肝菌和雙色牛肝菌)均采自云南省,共272 份樣品,樣品詳細信息見表1。
表1 牛肝菌樣品信息
Table 1 Information about boletes samples
KBr 天津市風船化學試劑科技有限公司;氯仿云南楊林工業開發區汕滇藥業有限公司。所有化學試劑均為分析純。
1.2 儀器與設備
Frontier型FTIR儀(配備硫酸三甘肽晶體氘化檢測器,掃描范圍為4 000~400 cm-1,掃描信號累加16 次,分辨率為4 cm-1) 美國Perkin Elmer公司;UV-2550型紫外-可見分光光度計(掃描范圍190~600 nm,狹縫寬度1 nm) 日本島津公司;SY3200-T型超聲波清洗儀(功率150 W,頻率55 kHz) 上海聲源超聲波儀器設備有限公司;YP-2型壓片機 上海市山岳科學儀器有限公司;FW-100型高速粉碎機 天津市華鑫儀器廠;80目標準篩盤 浙江上虞市道墟五四儀器廠。
1.3 方法
1.3.1 FTIR采集
樣品采集后清洗干凈,50 ℃烘干,粉碎后過80 目標準篩,備用。按1∶100的比例,準確稱量(1.5±0.2)mg牛肝菌樣品和(150±20)mg溴化鉀粉末,放入瑪瑙研缽充分混合研磨成細粉,將細粉倒入壓制磨具中壓制成片。將FTIR儀預熱30 min后進行FTIR掃描,樣品重復測定2 次,取平均光譜;掃描前使用空白樣本扣除CO2和H2O的干擾。
1.3.2 UV采集
稱取(0.1±0.002)g牛肝菌樣品粉末置于石英比色皿中,加入10 mL氯仿溶劑,超聲提取30 min,三層濾紙過濾,取清液備用。紫外-可見分光光度計預熱30 min后測定樣品UV,重復掃描2 次,取平均光譜,掃描間隔1 nm。
1.4 數據分析
FTIR儀和紫外-可見分光光度計在采集光譜信息時,會夾雜背景噪音、散光等干擾信息。為消除干擾信息,紅外原始光譜通過OMNIC 8.0軟件進行平均光譜、自動基線校正、平滑、縱坐標歸一化等預處理,紫外原始光譜采用UV probe 2.34軟件進行平滑等預處理;同時,采用2D+MSC對FTIR和UV分別進行優化處理。
原始光譜經預處理后,選取具有指紋特性的原始光譜數據進行串聯,形成一個包含大量變量的獨立數據矩陣,完成低級融合。采用SIMCA-P+13.0軟件對FTIR和UV數據分別進行PLS-DA,提取主成分并整合,進行中級融合。
SIMCA-P+13.0軟件對光譜數據進行2D、MSC優化處理,Origin 8.0軟件作圖,通過SIMCA-P+13.0軟件和MATLAB R2014a軟件分別進行PLS-DA和SVM分析,建立判別模型,比較分類結果。
2 結果與分析
2.1 原始FTIR檢測結果
釆用OMNIC 8.0軟件對272 份牛肝菌FTIR進行平滑、基線校正和縱坐標歸一化等預處理。選取牛肝菌FTIR特征吸收峰的集中波段在2 000~400 cm-1內,用于區分牛肝菌種類。如圖1所示,不同種類牛肝菌的FTIR較為相似,共有峰波數大致相同,在1 634、1 480、1 400、1 319、1 253、1 078、1 057 cm-1等波數附近有明顯吸收峰,但不同種牛肝菌樣品吸收峰的強度有差異。1 634 cm-1附近吸收峰為C=O伸縮振動,為蛋白質酰胺I帶;1 480 cm-1附近歸屬為亞甲基的彎曲振動;1 400、1 319、1 253 cm-1等附近為多糖、蛋白質等的C—O—H彎曲振動和亞甲基的變形振動;1 078、1 057 cm-1附近分別為糖類的C—O和C—C伸縮振動;950~710 cm-1波段有多個弱吸收峰,主要為糖類異構體的特征峰[24-25]。
圖1 5 種牛肝菌的FTIR
Fig. 1 IR spectra of fi ve boletus species
2.2 原始紫外圖譜分析
在采集樣品UV過程中,容易受到溶劑、儀器、環境等干擾,采用UV probe 2.34軟件對牛肝菌樣品進行平滑等預處理。由于在190~230 nm波長內UV受干擾嚴重,且400 nm以后無明顯特征吸收峰,牛肝菌UV的特征吸收峰集中在230~400 nm波長范圍內,因此選取230~400 nm波長范圍的171 個變量作為樣品信息用于區分牛肝菌種類。如圖2所示,在240~400 nm范圍內5 種牛肝菌樣品光譜圖峰形相似度高,在250~350 nm區間有明顯的特征吸收峰,274、285、296 nm附近為樣品共有峰,表明不同種牛肝菌的化學組分相似;5 種牛肝菌樣品的峰強、峰位和峰面積存在差異,尤其在230~240 nm區間差異明顯,具有指紋特性,能夠作為區分不同種類牛肝菌的依據。
圖2 5 種牛肝菌的UV
Fig. 2 UV spectra of fi ve boletus species
2.3 主成分提取
采用PLS-DA提取主成分,R2Y表示主成分累計貢獻率,貢獻率越高代表樣品信息越多;Q2表示主成分對樣品的預測能力,Q2越大表示預測能力越強[26]。如圖3所示,當Q2達到最大值時,FTIR前16 個主成分累計貢獻率達90.35%,UV前30 個主成分累計貢獻率達74.86%,能夠代表樣品的主要信息。將兩種光譜數據的主成分組合在一起,進行中級融合,形成新的數據集為進一步鑒別分析做準備。
圖3 PLS-DA提取主成分得分圖
Fig. 3 Scores plots for principal components extracted by PLS-DA
2.4 PLS-DA結果
PLS-DA是基于偏最小二乘回歸的一種有監督的判別分類方法,利用自變量矩陣X和分類變量Y建立回歸模型,通過PLS預測未知樣品類別的方法[27-28]。采用PLS-DA比較預處理對分類效果的影響。圖4顯示,經過預處理后FTIR較UV對不同種牛肝菌的區分效果更好;經過預處理后的區分效果優于原始的效果,表明2D和MSC預處理對FTIR和UV的優化效果較好。
圖4 不同種牛肝菌PLS-DA得分圖
Fig. 4 Scores plot for PLS-DA of different species of bolete mushrooms
隨機選取90 個樣品(約樣品量的1/3)作為預測集,其余182 個樣品作為訓練集。對FTIR、UV、低級融合和中級融合數據分別建立PLS-DA判別模型。如表2所示,FTIR技術與UV技術相比,FTIR判別模型具有更高的準確度,表明FTIR結合PLS-DA建立判別模型對未知樣品的分類更加準確。低級數據融合技術對不同種牛肝菌的分類正確率高于UV技術,低于FTIR技術,表明低級融合豐富了光譜數據,同時簡單的數據串聯將無效信息相互疊加,降低分類正確率。結果與Roussel等[29]的結論一致,受干擾信息影響,不是所有情況下數據融合得到的結果都優于單獨儀器。同時,中級數據融合訓練集和預測集的正確率分別達到98.90%和95.56%,正確率高于單一光譜技術,分類效果優于低級融合,表明中級融合技術在融合過程中去除了大量干擾信息,能夠建立更穩定、可靠的判別模型。
表2 PLS-DA對不同數據集的分類結果
Table 2 Results of PLS-DA of different data matrixes
2.5 SVM
SVM是基于統計學習理論的模式識別方法,主要應用于模式識別領域,能夠解決小樣本、非線性和高維數等問題,有效防止過擬合現象[30-31],該方法已被廣泛應用于原材料鑒別、食品分析等方面[32-34]。SVM模型選取訓練集和預測集的方法同2.4節,采用網格搜索法篩選建模的最佳參數,基于FTIR、UV、低級融合和中級融合數據分別建立SVM判別模型。如圖5所示,UV技術分類錯誤最多,中級融合全部分類正確,表明中級融合對牛肝菌種類的鑒別效果最佳。
圖5 SVM對測試集的實際分類和預測分類圖
Fig. 5 Plots of actual and predicted categories of test samples by SVM
表3 SVM對不同數據集的分類結果
Table 3 Results of SVM of different data matrixes
如表3所示,4 個數據集建模穩定性依次為中級融合>低級融合>FTIR>UV。同時低級融合對樣品的預測正確率高于單個技術,表明低級融合數據比單個儀器數據更全面,判別效果更好;中級融合的分類正確率高于低級融合,證明中級融合在整合數據過程中去除了無效信息,避免兩種光譜信息的互相干擾,提高分類正確率。該結論與Biancolillo等[19]研究結果相吻合,多種光譜技術對食品進行鑒別分析,低級和中級數據融合區分效果皆高于單一光譜技術,并且中級數據融合優于低級數據融合。比較表2和表3可知,采用中級融合技術建立SVM判別模型,模型穩定、可靠,對不同種牛肝菌鑒別效果最佳。
3 結 論
采用FTIR法和UV法采集云南地區常見牛肝菌物種的光譜信息,選擇MSC和2D分別對牛肝菌FTIR和UV進行優化處理。優化后的光譜數據進行PLS-DA,結果顯示同種類牛肝菌樣品能較好地聚集在一起,部分不同種類牛肝菌樣品混在一起,難以區分;表明優化處理對牛肝菌種類區分效果優于原始光譜,且FTIR對不同種牛肝菌的區分效果優于UV。
采用低級和中級數據融合策略對兩種光譜數據進行融合,通過PLS-DA和SVM建立分類鑒別模型,并比較FTIR、UV、低級融合和中級融合技術對不同種牛肝菌鑒別效果。結果顯示:中級數據融合建立的SVM判別模型預測正確率分別為95.56%和100.00%,高于其他模型,表明中級融合對不同種牛肝菌區分效果最佳,且SVM建立分類模型更穩定、可靠。中級融合技術結合SVM建立鑒別模型,能夠準確、有效區分不同種牛肝菌,為快速鑒別野生食用菌提供有效方法,對維護食用菌市場的穩定具有重要意義。