小優(yōu)智能科技有限公司成立于2015年底,是一家專注于高精度3D機(jī)器視覺模組研發(fā)、生產(chǎn)及銷售的高科技企業(yè)。
公司自主研發(fā)的3D機(jī)器視覺模組采用激光/DLP白光編碼光柵結(jié)構(gòu)光+雙工業(yè)相機(jī)方案,還原物體三維信息,廣泛應(yīng)用于消費(fèi)電子領(lǐng)域、工業(yè)領(lǐng)域和安防領(lǐng)域,具有精度高、速度快、成本低的優(yōu)勢。
離群點(diǎn)主要表示在特定時間序列內(nèi),與序列平均值差距較大的極端大、小值,在實(shí)際應(yīng)用中也將其稱作為野值。在研究中發(fā)現(xiàn),離群點(diǎn)的出現(xiàn)與多種因素有關(guān),其中系統(tǒng)外部影響是一種重要的因素,然而與之相關(guān)的系統(tǒng)外部干擾并不是相同的,而是存在不同類型的問題。例如有數(shù)據(jù)記錄和計算的錯誤,此外其他偶然因素也會引起極端大值、極端小值的出現(xiàn)。所以在離群點(diǎn)分析過程中應(yīng)該綜合考慮到各個影響因素。
基于之前的分析已經(jīng)明確了離群點(diǎn)產(chǎn)生的原因,其會對時間序列分析產(chǎn)生直接的影響,特別是會降低模型的擬合精度,因此在實(shí)際應(yīng)用中分析人員并不期望序列中含有離群點(diǎn),從這個角度來看很多分析人員為了改善模型的精度,往往會采取不同的方法將離群點(diǎn)去除。但是從相反的角度來看,離群點(diǎn)攜帶了有價值的信息,其能夠?yàn)椴蓸又绣e誤分析提供依據(jù),如果是由于外部干擾引起的離群點(diǎn),則能夠提示系統(tǒng)靈敏性等相關(guān)的信息。
隨著對離群點(diǎn)研究的增多,很多學(xué)者提出了不同的處理方法,目前在應(yīng)用中一般將離群點(diǎn)劃分為四種不同的類型,主要包括加性離群點(diǎn)、樹水平位移離群點(diǎn)、暫時變更離群點(diǎn)以及更新離群點(diǎn),各種離群點(diǎn)的特征存在一定的差異性,具體的介紹如下所示:
(1)加性離群點(diǎn):這種類型的干擾僅僅對干擾出現(xiàn)時刻T的序列值產(chǎn)生影響,與之后的序列值無關(guān)。
(2)樹水平位移離群點(diǎn):引起這種離群點(diǎn)的干擾會從影響的開始時刻T持續(xù)產(chǎn)生影響,具體表現(xiàn)為T時刻前后的序列均值出現(xiàn)的水平位移。
(3)暫時變更離群點(diǎn):干擾在T時刻出現(xiàn)時會體現(xiàn)出一定的初始效應(yīng),在之后時刻的影響會呈現(xiàn)指數(shù)衰減。
(4)更新離群點(diǎn):干擾除了影響XT外,會持續(xù)影響到之后時刻的值,它的其中系統(tǒng)動態(tài)模型是影響其作用方式的主要因素。
綜上所述,離群點(diǎn)與傳統(tǒng)的數(shù)據(jù)對象不同,可以認(rèn)為是一種特殊的數(shù)據(jù)對象, 離群點(diǎn)檢驗(yàn)就是通過多種檢測方法找出其行為不同于預(yù)期對象的數(shù)據(jù)點(diǎn)的過程。根據(jù)正常數(shù)據(jù)和離群點(diǎn)的假定分類,可以分為以下5種方法,具體的分析如下文所示:
(1)基于分布的方法
基于分布的檢測方法原理比較簡單,實(shí)施的難度較小,其在構(gòu)建合適的數(shù)據(jù)分布模型后通過不和諧校驗(yàn)(Discordancy Test)提取與模型分布規(guī)律不相符的數(shù)據(jù),由此可以得到對應(yīng)的離群點(diǎn)。但是這種方法的準(zhǔn)確性較低,并且在數(shù)據(jù)維度較大時提取離散點(diǎn)的難度更大。
(2)基于深度的方法
基于深度的檢測方法需要對各個數(shù)據(jù)對象設(shè)置一個方初始的深度值,由此建立與多層數(shù)據(jù)空間的對應(yīng)關(guān)系,然后提取外層的對象即為離群點(diǎn)。這種方法應(yīng)用到數(shù)據(jù)維度較小的情況時效果較好,但是對于多維數(shù)據(jù)的處理效果不佳。
(3)基于聚類的方法
先前人們只是根據(jù)經(jīng)驗(yàn)來對事物進(jìn)行分類,但是隨著分類目標(biāo)的復(fù)雜度增加,數(shù)據(jù)量的增大,分類的要求逐步增大,如果只依賴于傳統(tǒng)的分類方法難以獲得較好的分類效果。很多學(xué)者進(jìn)行了研究并提出了更先進(jìn)的聚類技術(shù),聚類分析的基本思想是根據(jù)樣本間的相似性來獲取數(shù)據(jù)的潛在規(guī)律,將對象分組成由相似對象構(gòu)成的多個類別。總體判斷的依據(jù)是數(shù)據(jù)的相似度,如果相似度基本一致時則劃分為一類,相似度差距較大時則屬于不同的類。在實(shí)際聚類中則主要是將關(guān)聯(lián)性高的數(shù)據(jù)樣本歸為同一類,關(guān)聯(lián)性低的樣本歸為不同的類。因此結(jié)合聚類的原理可以進(jìn)行檢測,由此能夠有效地獲得簇和離群點(diǎn)。
基于聚類技術(shù)來發(fā)現(xiàn)離群點(diǎn)可能是高度有效的。常用的模型有K-means等,基于聚類的離群點(diǎn)檢測思路如下:首先用聚類算法做聚類;然后對各個點(diǎn)與聚類中心的距離以及平均距離L進(jìn)行計算;第三步用戶設(shè)定一個spec參數(shù);最后對類中心與各個點(diǎn)的距離s進(jìn)行計算,由此可以判斷出是否為離群點(diǎn)。這種方法存在一定的不足,即如果大、小聚集簇的距離非常小時,難以準(zhǔn)確地識別離群點(diǎn)。此方法的示意圖如圖2所示。
圖2基于聚類的方法
(4)基于距離的方法
基于距離的檢測方法需要先設(shè)置一個固定的距離參數(shù)L,以此分析各個點(diǎn)與設(shè)置點(diǎn)的距離的關(guān)系,當(dāng)這個距離高于L時,則對應(yīng)的點(diǎn)即為離群點(diǎn)。常用的模型為KNN(k近鄰),KNN算法的原理比較容易理解,用戶可以直接從訓(xùn)練樣本內(nèi)獲得K個最接近的樣本,并對各個樣本所屬的類型進(jìn)行劃分,最后將樣本最多的類別進(jìn)行匯總,即可對待判定的樣本類型進(jìn)行確定。K最近鄰分類算法的使用需要滿足一定的條件。此算法的優(yōu)勢在于分類結(jié)果的準(zhǔn)確性高等,然而這種準(zhǔn)確性依賴于高質(zhì)量的樣本相似度計算結(jié)果,所以比較依賴于相似度的計算過程,不適合將其應(yīng)用到大規(guī)模數(shù)據(jù)集的分類中。經(jīng)過分析,當(dāng)樣本的數(shù)目比較大時使用這種方法往往能夠獲得更好地效果。根據(jù)這個原理,如果某樣本的k個相似度最高的大部分樣本都屬于相同的類別,則該樣本也屬于這個類別,其中K通常是不大于20的整數(shù)。通常用來度量最相似程度的距離有歐式距離和曼哈頓距離。如果數(shù)據(jù)集的規(guī)模較大,并且分布不均衡,則會降低算法的性能,此方法的具體流程如下所示。
圖3 基于距離的方法
(5)基于密度的方法
基于密度的檢測方法在檢測局部離群點(diǎn)時的應(yīng)用效果較好,根據(jù)定點(diǎn)間的距離與點(diǎn)的數(shù)目進(jìn)行分析,由此可以分析目標(biāo)點(diǎn)與其他點(diǎn)的離群程度。在應(yīng)用過程中需要先定義一個密度值,如果判斷是離群點(diǎn),則其密度值與周邊正常點(diǎn)的密度相差很大。常用的模型有LOF,其原理如下所示:首先針對數(shù)據(jù)集內(nèi)的各個點(diǎn)計算局部離群因子LOF,如果計算的LOF與1之間的差值較大,則說明屬于離群點(diǎn);如果與1之間的差值較小,則不屬于離群點(diǎn)。這種方法在應(yīng)用中存在一定的不足之處,主要體現(xiàn)在選擇密度參數(shù)時的難度較大。
圖4基于密度的方法
通過上文對這5類離群點(diǎn)過濾方法的分析,我們可以得出每種過濾方法的優(yōu)缺點(diǎn),如下表1所示。
表1 離群點(diǎn)過濾方法對比
離群點(diǎn)過濾方法 | 優(yōu)點(diǎn) | 缺點(diǎn) |
基于分布的方法 | 操作簡單 | 準(zhǔn)確性低 |
基于深度的方法 | 二維數(shù)據(jù)過濾效果好 | 不適用于三維數(shù)據(jù)的過濾 |
基于聚類的方法 | 過濾效果好 | 需要對點(diǎn)云簇進(jìn)行分類,操作繁瑣 |
基于距離的方法 | 準(zhǔn)確性高 | 對離表面較近的離群點(diǎn)效果較差 |
基于密度的方法 | 過濾速度快,操作簡單 | 需要合適的密度參數(shù) |