取消
清空記錄
歷史記錄
清空記錄
歷史記錄
近紅外光譜檢測技術(shù)的成本低,對于樣本無損傷、無污染、方便在線分析。在食品無損檢測中得到了廣泛的應(yīng)用。
近紅外光譜技術(shù)是建立一個穩(wěn)定可靠的定性或者定量模型來實現(xiàn)數(shù)據(jù)樣本的校準(zhǔn),常用于定性分析。定性分析中常用的方法有主成分分析法(principal component analysis ,PCA)、模式識別方法等;定量分析中常用的方法主要是各種多元校正技術(shù),如偏最小二乘回歸(partial least squares ,PLS)、支持向量機(jī)(support vector machine ,SVM)以及神經(jīng)網(wǎng)絡(luò)算法(back propagation ,BP)等。
偏最小二乘法
偏最小二乘法(partial least squares ,PLS)是一種新的多元校正方法,可以建立多元的回歸模型,主要是基于因子分析。偏最小二乘法的原理是首先將樣本的光譜矩陣X和光譜濃度矩陣Y進(jìn)行分解,同時把包含在樣本中的信息引入進(jìn)來,分解后提取出樣本中的m個主因子,如公式(1)所示:
式(1)中:測量矩陣X和Y的得分矩陣分別是T和U;tk和uk分別表示光譜矩陣X的第k個主成分因子和濃度矩陣的第k個主成分因子;pk和qk表示主成分因子的載荷,m為成分因子的個數(shù)。對于和進(jìn)行線性關(guān)聯(lián),如公式(2)所示:
在進(jìn)行回歸預(yù)測時,首先求出未知樣品光譜矩陣的得分Tx,再根據(jù)公式(3)得到組分濃度預(yù)測值,如公式(3)所示:
在該算法的整個運(yùn)算過程中,矩陣的分解和回歸分析是同時進(jìn)行的,計算新的主成分時,首先交換T和U,使的主成分和測量矩陣Y直接關(guān)聯(lián)。偏最小二乘PLS算法分析是通過建立光譜數(shù)據(jù)和品種分類之間的回歸模型來實現(xiàn)的。使用PLS分析得到的結(jié)果中,不僅可以建立更優(yōu)化的回歸模型,還可以同時進(jìn)行主成分分析來簡化數(shù)據(jù)結(jié)構(gòu),觀察變量之間的相互關(guān)系等研究內(nèi)容,提供更多的建模信息。所有的獨立變量都可以包含在最終建立的回歸模型中,PLS可以有效解決變量多重性問題。
主成分分析
主成分分析是一種線性投影方法,它主要被應(yīng)用在多元統(tǒng)計分析中,在不損害樣本的原始信息的前提下,對高維數(shù)據(jù)進(jìn)行降維處理,將其映射到低維空間中。PCA的基本思路是通過最優(yōu)化方法簡化樣本的數(shù)據(jù)矩陣,降低維數(shù),從原本樣本的指標(biāo)中,得到幾個主成分,用來揭示樣本中包含的信息。
計算步驟首先是對原始數(shù)據(jù)矩陣X進(jìn)行拆分,如公式(4)所示:
借助投影矩陣LT將X投影到多維子空間。T中的列向量和L中的列向量是相互正交的關(guān)系,如公式(5)所示:
重建后的數(shù)據(jù)變量相互獨立,各主成分按照方差順序進(jìn)行排列,第一主成分包含了數(shù)據(jù)方差的絕大部分,排名越靠前的主成分,其所包含的的數(shù)據(jù)信息量越大。經(jīng)過計算所得到的新的橫坐標(biāo)是樣本原來變量的線性組合。第一主成分元素可以表示為如下形式:
主成分分析的對象減少,從而可以有效地降低分析的工作量和誤差。分析過程中只使用獨立變量,這樣可以達(dá)到消除噪音的目的。對數(shù)據(jù)進(jìn)行降維處理可以幫助信息的提取和聚類分析。
BP神經(jīng)網(wǎng)絡(luò)算法
BP算法又稱為誤差反向傳播算法,是人工神經(jīng)網(wǎng)絡(luò)中的一種基于誤差反向傳播的監(jiān)督式學(xué)習(xí)算法。在理論上,BP神經(jīng)網(wǎng)絡(luò)算法可以逼近任意函數(shù),基本的結(jié)構(gòu)是由很多非線性變化的單元組成,具有實現(xiàn)輸入和輸出數(shù)據(jù)高度非線性映射能力。人工神經(jīng)網(wǎng)絡(luò)是對人類大腦結(jié)構(gòu)以及信息處理運(yùn)作過程進(jìn)行模擬之后,提出的信息處理系統(tǒng)。因此具有自學(xué)習(xí)和自適應(yīng)的能力。
BP神經(jīng)網(wǎng)絡(luò)的計算包括正向和反向兩個子過程。正向傳播過程中,是從輸入層逐層轉(zhuǎn)向傳出層。如果輸出和期望不同的時候,則進(jìn)行反向傳播,把誤差沿著正向傳播路徑的原路徑反向傳播回去,經(jīng)過各個神經(jīng)元的修改,使得誤差達(dá)到最小。BP神經(jīng)網(wǎng)絡(luò)法的缺點是學(xué)習(xí)速度慢;在解決全局問題時,很有可能陷入局部最優(yōu)化,使得訓(xùn)練失??;由于學(xué)習(xí)能力和泛化能力之間的矛盾,過程中容易出現(xiàn)“過擬合”現(xiàn)象。
支持向量機(jī)算法
支持向量機(jī)算法的優(yōu)化原則是采用以結(jié)構(gòu)化風(fēng)險最小化取代我們常用的經(jīng)驗風(fēng)險最小化;基本思想是利用核函數(shù)代替向高維空間的非線性映射,對于樣本,若是非線性可再分,則構(gòu)建一個或多個甚至無限多個高維的超平面,在經(jīng)過變換后的高維空間,利用這個超平面來對樣本點進(jìn)行分類。一個好的超平面要求離分類邊界最近的訓(xùn)練樣本點的與分類邊界的距離越大越好,這個距離被稱之為間隔(Margin),這些樣本點被稱之為支持向量。SVM的目標(biāo)就是要找出使間隔最大的分類超平面。
給定的樣本集,步驟一般如下:首先要將樣本集分為訓(xùn)練集和測試集,訓(xùn)練集是(x1,y1) (x2,y2)…(xi,yi),其中橫坐標(biāo)xi∈Rn為輸入變量的值,yi∈Rn為相應(yīng)的輸出值。通過對訓(xùn)練集進(jìn)行機(jī)器學(xué)習(xí),尋求最優(yōu)化的模式M(x),要求這個模式不僅滿足訓(xùn)練集輸入和輸出的對應(yīng)關(guān)系,而且對于測試集的樣本輸入變量的值進(jìn)行預(yù)測,同樣能得到效果較好的輸出。
在支持向量機(jī)算法中,使用不同的核函數(shù)會產(chǎn)生不同的算法,因為SVM具有優(yōu)秀的泛化能力,所以是一種適合小樣本的學(xué)習(xí)方法。在SVM進(jìn)行分類的時候,起到?jīng)Q定性作用的是支持向量。計算的復(fù)雜性取決于支持向量的數(shù)目,在實驗的過程中只需要抓住關(guān)鍵的樣本。SVM在運(yùn)算的過程中很少涉及到概率測度及大數(shù)定律等規(guī)律,而且支持向量法整體具有較好的“魯棒”性。
在數(shù)據(jù)挖掘的實際應(yīng)用中,一般要解決多類的分類問題。如:將SVM與粗集理論結(jié)合,形成一種優(yōu)勢互補(bǔ)的多類問題的組合分類器。
最小二乘支持向量機(jī)算法
最小二乘支持向量機(jī)(least square support vector machines ,LS—SVM)是支持向量機(jī)的一種類型,是在經(jīng)典SVM的基礎(chǔ)上改進(jìn)得來的。LS—SVM既可以進(jìn)行線性,也可以進(jìn)行非線性的多元建模,支持少量的訓(xùn)練樣本中高維特征空間的學(xué)習(xí),是解決多元建模的一種快速方法。最小二乘支持向量機(jī)具有建模速度快、優(yōu)化參數(shù)少、泛化能力強(qiáng)等優(yōu)點,因此被廣泛應(yīng)用于近紅外光譜技術(shù)檢測的定量分析中。最小二乘支持向量機(jī)同時具有很好的非線性處理能力,可以用于快速建立多元模型。
K最近鄰分類算法
在K最近鄰分類算法(K-nearest neighbor,KNN)算法中每個樣本都可以用它最接近的k個鄰居來代表。KNN算法的核心思想是在特征空間中,如果以一個樣本為中心,它周圍最相鄰的k個樣本,它們大多數(shù)屬于某一個類別,則這個樣本也屬于這個類別,并且具有這個類別上其他k個樣本的特性。
如圖1所示,有三類不同樣本,分別以方框、空心圓點和實心圓點表示。其中以“+”標(biāo)記出的樣本,需要分析出它所屬的類別。在此圖中以該樣本作為圓心,畫出兩個圓,如果以小圓為界線,只有2個實心圓點落在小圓的范圍內(nèi),此時按照KNN原理應(yīng)該將樣本劃分為實心圓點那一類。如果以大圓為界線,共有10個點落在了大圓的范圍內(nèi),其中有3個方框類,有8個實心圓點類,按照KNN理論,也應(yīng)該被劃為實心圓點這一類。這說明K值的大小對判別的結(jié)果是有一定的影響的。如果K>1,則這K個最近鄰樣本不一定都屬于這一類。如果K=1,很自然這一個最近鄰樣本屬于哪類,那么未知樣本就屬于此類。
KNN分類算法的最大優(yōu)點是其適合于屬性較多或者數(shù)據(jù)量很大的問題。在進(jìn)行數(shù)據(jù)處理的過程中,不需要提前設(shè)計分類器對訓(xùn)練樣本進(jìn)行分類,而是可以直接進(jìn)行分類,確定每個類的類標(biāo)識號,不需要估計參數(shù),無需訓(xùn)練;在解決多分類的問題上KNN比SVM表現(xiàn)要好。KNN在實際的應(yīng)用中存在下面兩個問題:當(dāng)對估計參數(shù)沒有相應(yīng)的限制時,訓(xùn)練集的數(shù)目又比較大,這時尋找最近鄰所花費(fèi)的時間較長。其次,對于觀測集的增長速度有較高要求。
線性判別分析法
主要用來判斷樣品的類別,即可以對樣品中的成分進(jìn)行定性分析,線性判別分析法(linear discriminant analysis,LDA)在醫(yī)學(xué)診斷、氣象學(xué)、市場預(yù)測、經(jīng)濟(jì)學(xué)和地質(zhì)勘探等領(lǐng)域中均已起著重要作用。
LDA算法的基本思想是通過特征向量將已經(jīng)分組的數(shù)據(jù)向低維的方向投影,使得同一個組的數(shù)據(jù)關(guān)系更為緊密,不同組的之間盡可能的分開。LDA的目標(biāo)是要根據(jù)樣本中的n個指標(biāo)變量x=(x1,x2,…,xn)T建立一個最優(yōu)分類判別函數(shù),判別函數(shù)的建立最終是尋找一個矢量w=(w1,w2,…,wn)T,那建立一個如下的判別模型,如公式(9)所示:
矢量w是個常數(shù),稱作閥值權(quán),相應(yīng)的決策規(guī)則則可表示為,如公式(10)所示:
f(w,x)=0是相應(yīng)的決策面方程,如公式(11)所示:
f(w,x)也就是該決策面到d維空間中任一點w距離的代數(shù)度量,根據(jù)其到該面距離的正負(fù)號,該決策平面將樣本分類,并且確定出相應(yīng)的類別。W(w0≠0)表示的是決策面在特征空間中的位置,當(dāng)其值為0時,表示這個決策面過原點。
連續(xù)投影算法
連續(xù)投影算法(successive projections algorithm,SPA)是在線性空間中,使共線性達(dá)到最小化的一種前向變量選擇算法。設(shè)定標(biāo)集中樣品個數(shù)為n,包含波長數(shù)為m,組成一個光譜矩陣Xn×m,SPA從任選一個波長作為起始波長點,循環(huán)進(jìn)行搜索,搜索投影中沒有被引入波長組合的部分,每次都將最大的投影方向不斷地引入,直到循環(huán)W(w
選擇其中最大的投影,并且記錄下相應(yīng)序號作為入選的波長,如公式(13)所示:
當(dāng)n=w時停止循環(huán),否則返回到第二步不斷地做投影優(yōu)選波長。這樣總共得到w×m個模型。
連續(xù)投影算法的優(yōu)點是:最大程度的降低了變量之間的共線性,提取最低限度的冗余信息變量組可以減少建立模型所需要變量的個數(shù),提高建模效率和速度。
以上算法都是近紅外光譜在建立定性或定量模型中的常見算法。但目前很多商用的近紅外光譜儀將算法整合到建模軟件中,并不需要使用人員完全了解算法即可建模。但今后近紅外的發(fā)展離不開人們對算法的研究??梢灶A(yù)見的是,隨著近紅外的發(fā)展普及,越來越多人會對近紅外的算法產(chǎn)生興趣。隨著時代,未來將會有新的技術(shù)誕生,給光譜儀產(chǎn)業(yè)帶來翻天覆地的變化。