成人怡红院-成人怡红院视频在线观看-成人影视大全-成人影院203nnxyz-美女毛片在线看-美女免费黄

站長(zhǎng)資訊網(wǎng)
最全最豐富的資訊網(wǎng)站

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

本篇文章給大家?guī)砹岁P(guān)于python的相關(guān)知識(shí),其中主要介紹了數(shù)據(jù)分析中異常值的相關(guān)問題,一般異常值的檢測(cè)方法有基于統(tǒng)計(jì)的方法,基于聚類的方法,以及一些專門檢測(cè)異常值的方法等,下面對(duì)這些方法進(jìn)行相關(guān)的介紹,希望對(duì)大家有幫助。

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

推薦學(xué)習(xí):python學(xué)習(xí)教程

1 什么是異常值?

在機(jī)器學(xué)習(xí)中,異常檢測(cè)和處理是一個(gè)比較小的分支,或者說,是機(jī)器學(xué)習(xí)的一個(gè)副產(chǎn)物,因?yàn)樵谝话愕念A(yù)測(cè)問題中,模型通常是對(duì)整體樣本數(shù)據(jù)結(jié)構(gòu)的一種表達(dá)方式,這種表達(dá)方式通常抓住的是整體樣本一般性的性質(zhì),而那些在這些性質(zhì)上表現(xiàn)完全與整體樣本不一致的點(diǎn),我們就稱其為異常點(diǎn),通常異常點(diǎn)在預(yù)測(cè)問題中是不受開發(fā)者歡迎的,因?yàn)轭A(yù)測(cè)問題通產(chǎn)關(guān)注的是整體樣本的性質(zhì),而異常點(diǎn)的生成機(jī)制與整體樣本完全不一致,如果算法對(duì)異常點(diǎn)敏感,那么生成的模型并不能對(duì)整體樣本有一個(gè)較好的表達(dá),從而預(yù)測(cè)也會(huì)不準(zhǔn)確。 從另一方面來說,異常點(diǎn)在某些場(chǎng)景下反而令分析者感到極大興趣,如疾病預(yù)測(cè),通常健康人的身體指標(biāo)在某些維度上是相似,如果一個(gè)人的身體指標(biāo)出現(xiàn)了異常,那么他的身體情況在某些方面肯定發(fā)生了改變,當(dāng)然這種改變并不一定是由疾病引起(通常被稱為噪音點(diǎn)),但異常的發(fā)生和檢測(cè)是疾病預(yù)測(cè)一個(gè)重要起始點(diǎn)。相似的場(chǎng)景也可以應(yīng)用到信用欺詐,網(wǎng)絡(luò)攻擊等等。

2 異常值的檢測(cè)方法

一般異常值的檢測(cè)方法有基于統(tǒng)計(jì)的方法,基于聚類的方法,以及一些專門檢測(cè)異常值的方法等,下面對(duì)這些方法進(jìn)行相關(guān)的介紹。

1. 簡(jiǎn)單統(tǒng)計(jì)

如果使用pandas,我們可以直接使用describe()來觀察數(shù)據(jù)的統(tǒng)計(jì)性描述(只是粗略的觀察一些統(tǒng)計(jì)量),不過統(tǒng)計(jì)數(shù)據(jù)為連續(xù)型的,如下:

df.describe()

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

或者簡(jiǎn)單使用散點(diǎn)圖也能很清晰的觀察到異常值的存在。如下所示:

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

2. 3?原則

這個(gè)原則有個(gè)條件:數(shù)據(jù)需要服從正態(tài)分布。在3?原則下,異常值如超過3倍標(biāo)準(zhǔn)差,那么可以將其視為異常值。正負(fù)3?的概率是99.7%,那么距離平均值3?之外的值出現(xiàn)的概率為P(|x-u| > 3?) <= 0.003,屬于極個(gè)別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來描述。

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

紅色箭頭所指就是異常值。

3. 箱型圖

這種方法是利用箱型圖的四分位距(IQR)對(duì)異常值進(jìn)行檢測(cè),也叫Tukey‘s test。箱型圖的定義如下:

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

四分位距(IQR)就是上四分位與下四分位的差值。而我們通過IQR的1.5倍為標(biāo)準(zhǔn),規(guī)定:超過上四分位+1.5倍IQR距離,或者下四分位-1.5倍IQR距離的點(diǎn)為異常值。下面是Python中的代碼實(shí)現(xiàn),主要使用了numpypercentile方法。

Percentile = np.percentile(df['length'],[0,25,50,75,100]) IQR = Percentile[3] - Percentile[1] UpLimit = Percentile[3]+ageIQR*1.5 DownLimit = Percentile[1]-ageIQR*1.5

也可以使用seaborn的可視化方法boxplot來實(shí)現(xiàn):

f,ax=plt.subplots(figsize=(10,8)) sns.boxplot(y='length',data=df,ax=ax) plt.show()

Python數(shù)據(jù)異常值檢測(cè)和處理(實(shí)例詳解)

紅色箭頭所指就是異常值。

以上是常用到的判斷異常值的簡(jiǎn)單方法。下面來介紹一些較為復(fù)雜的檢測(cè)異常值算法,由于涉及內(nèi)容較多,僅介紹核心思想,感興趣的朋友可自行深入研究。

4. 基于模型檢測(cè)

這種方法一般會(huì)構(gòu)建一個(gè)概率分布模型,并計(jì)算對(duì)象符合該模型的概率,把具有低概率的對(duì)象視為異常點(diǎn)。如果模型是簇的集合,則異常是不顯著屬于任何簇的對(duì)象;如果模型是回歸時(shí),異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象。

離群點(diǎn)的概率定義:離群點(diǎn)是一個(gè)對(duì)象,關(guān)于數(shù)據(jù)的概率分布模型,它具有低概率。這種情況的前提是必須知道數(shù)據(jù)集服從什么分布,如果估計(jì)錯(cuò)誤就造成了重尾分布。

比如特征工程中的RobustScaler方法,在做數(shù)據(jù)特征值縮放的時(shí)候,它會(huì)利用數(shù)據(jù)特征的分位數(shù)分布,將數(shù)據(jù)根據(jù)分位數(shù)劃分為多段,只取中間段來做縮放,比如只取25%分位數(shù)到75%分位數(shù)的數(shù)據(jù)做縮放。這樣減小了異常數(shù)據(jù)的影響。

優(yōu)缺點(diǎn):(1)有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí),這些檢驗(yàn)可能非常有效;(2)對(duì)于多元數(shù)據(jù),可用的選擇少一些,并且對(duì)于高維數(shù)據(jù),這些檢測(cè)可能性很差。

5. 基于近鄰度的離群點(diǎn)檢測(cè)

統(tǒng)計(jì)方法是利用數(shù)據(jù)的分布來觀察異常值,一些方法甚至需要一些分布條件,而在實(shí)際中數(shù)據(jù)的分布很難達(dá)到一些假設(shè)條件,在使用上有一定的局限性。

確定數(shù)據(jù)集的有意義的鄰近性度量比確定它的統(tǒng)計(jì)分布更容易。這種方法比統(tǒng)計(jì)學(xué)方法更一般、更容易使用,因?yàn)?strong>一個(gè)對(duì)象的離群點(diǎn)得分由到它的k-最近鄰(KNN)的距離給定。

需要注意的是:離群點(diǎn)得分對(duì)k的取值高度敏感。如果k太小,則少量的鄰近離群點(diǎn)可能導(dǎo)致較低的離群點(diǎn)得分;如果K太大,則點(diǎn)數(shù)少于k的簇中所有的對(duì)象可能都成了離群點(diǎn)。為了使該方案對(duì)于k的選取更具有魯棒性,可以使用k個(gè)最近鄰的平均距離。

優(yōu)缺點(diǎn):(1)簡(jiǎn)單;(2)缺點(diǎn):基于鄰近度的方法需要O(m2)時(shí)間,大數(shù)據(jù)集不適用;(3)該方法對(duì)參數(shù)的選擇也是敏感的;(4)不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化。

5. 基于密度的離群點(diǎn)檢測(cè)

從基于密度的觀點(diǎn)來說,離群點(diǎn)是在低密度區(qū)域中的對(duì)象。基于密度的離群點(diǎn)檢測(cè)與基于鄰近度的離群點(diǎn)檢測(cè)密切相關(guān),因?yàn)槊芏韧ǔS绵徑榷x。一種常用的定義密度的方法是,定義密度為到k個(gè)最近鄰的平均距離的倒數(shù)。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類算法使用的密度定義,即一個(gè)對(duì)象周圍的密度等于該對(duì)象指定距離d內(nèi)對(duì)象的個(gè)數(shù)。

優(yōu)缺點(diǎn):(1)給出了對(duì)象是離群點(diǎn)的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;(2)與基于距離的方法一樣,這些方法必然具有O(m2)的時(shí)間復(fù)雜度。對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到O(mlogm);(3)參數(shù)選擇是困難的。雖然LOF算法通過觀察不同的k值,然后取得最大離群點(diǎn)得分來處理該問題,但是,仍然需要選擇這些值的上下界。

6. 基于聚類的方法來做異常點(diǎn)檢測(cè)

基于聚類的離群點(diǎn):一個(gè)對(duì)象是基于聚類的離群點(diǎn),如果該對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象屬于離群點(diǎn)。

離群點(diǎn)對(duì)初始聚類的影響:如果通過聚類檢測(cè)離群點(diǎn),則由于離群點(diǎn)影響聚類,存在一個(gè)問題:結(jié)構(gòu)是否有效。這也是k-means算法的缺點(diǎn),對(duì)離群點(diǎn)敏感。為了處理該問題,可以使用如下方法:對(duì)象聚類,刪除離群點(diǎn),對(duì)象再次聚類(這個(gè)不能保證產(chǎn)生最優(yōu)結(jié)果)。

優(yōu)缺點(diǎn):(1)基于線性和接近線性復(fù)雜度(k均值)的聚類技術(shù)來發(fā)現(xiàn)離群點(diǎn)可能是高度有效的;(2)簇的定義通常是離群點(diǎn)的補(bǔ),因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn);(3)產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性;(4)聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。

7. 專門的離群點(diǎn)檢測(cè)

其實(shí)以上說到聚類方法的本意是是無(wú)監(jiān)督分類,并不是為了尋找離群點(diǎn)的,只是恰好它的功能可以實(shí)現(xiàn)離群點(diǎn)的檢測(cè),算是一個(gè)衍生的功能。

除了以上提及的方法,還有兩個(gè)專門用于檢測(cè)異常點(diǎn)的方法比較常用:One Class SVMIsolation Forest,詳細(xì)內(nèi)容不進(jìn)行深入研究。

3 異常值的處理方法

檢測(cè)到了異常值,我們需要對(duì)其進(jìn)行一定的處理。而一般異常值的處理方法可大致分為以下幾種:

  • 刪除含有異常值的記錄:直接將含有異常值的記錄刪除;
  • 視為缺失值:將異常值視為缺失值,利用缺失值處理的方法進(jìn)行處理;
  • 平均值修正:可用前后兩個(gè)觀測(cè)值的平均值修正該異常值;
  • 不處理:直接在具有異常值的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘;

是否要?jiǎng)h除異常值可根據(jù)實(shí)際情況考慮。因?yàn)橐恍┠P蛯?duì)異常值不很敏感,即使有異常值也不影響模型效果,但是一些模型比如邏輯回歸LR對(duì)異常值很敏感,如果不進(jìn)行處理,可能會(huì)出現(xiàn)過擬合等非常差的效果。

4 異常值總結(jié)

以上是對(duì)異常值檢測(cè)和處理方法的匯總。

通過一些檢測(cè)方法我們可以找到異常值,但所得結(jié)果并不是絕對(duì)正確的,具體情況還需自己根據(jù)業(yè)務(wù)的理解加以判斷。同樣,對(duì)于異常值如何處理,是該刪除,修正,還是不處理也需結(jié)合實(shí)際情況考慮,沒有固定的。

推薦學(xué)習(xí):python教程

贊(0)
分享到: 更多 (0)
?
網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)
YOUJIZZ中国少妇| JIZZJIZZJIZZ亚洲热| 亚洲国产精品人人爽夜夜爽| 亚洲AV成人片无码| 亚洲日韩国产一区二区蜜桃| 一区无码在线观看的| 99RE热这里只有精品| 不文女学堂在线观看| 伊人久久大香线蕉AV色婷婷色| 中文弹幕日产无线码一区| GAY2022空少被体育生暴菊| 成人无码视频在线观看| 国产免费无遮挡吃奶视频| 九九久久99综合一区二区| 免费播放片Ⅴ免费人成视频| 人妻少妇啊灬啊灬用力啊快| 天堂А√在线地址资源| 日本VA视频免费在线观看| 少妇一晚三次一区二区三区| 亚洲AV无码精品色夜午夜网址| 夜夜揉揉日日人人| 亚洲成AV人片一区二区三区| 伊人精品无码AV一区二区三区| JAPANESEⅩⅩⅩHD护士| 国产成人亚洲精品青草天美| 精品高潮呻吟AV久久无码| 内地CHINA麻豆VIDEOS| 色8久久人人97超碰香蕉987| 亚洲AV成人综合网成人| 自由 日本语 热 亚洲人| 二级毛片免费视频播放| 交换人生俱乐部全文免费阅读 | 男女差差差差差打扑克视频| 国产精品无码AV片在线观看播放| 欧美肥妇BWBWBWBXX| 人妻AV中文字幕无码专区| 无码人妻少妇伦在线电影| 亚洲美女国产精品久久久久久久久 | XXXXXL日本17上线| 国产亚洲成AV人片在线观看导航| 久久人搡人人玩人妻精品| 日本人XXXX1819HD| 亚洲精品白浆高清久久久久久| 99久久精品国产波多野结衣| 国产精品永久久久久久久久久| 麻花传媒剧国产MV高清播放| 色综合久久婷婷88| 一本一本久久AA综合精品| 丰满熟妇乱子又伦| 久久婷婷五月综合丁香人人爽| 日韩一区二区三区视频| 亚洲日韩中文字幕日本| 成 人 网 站 在线 看 免费| 精品无码AV一区二区三区不卡| 日本丰满护士爆乳XXⅩ| 亚洲日韩欧洲乱码AV夜夜摸| 东京热加勒比无码少妇| 旧里番6080在线观看| 我朋友的妻子2018| 337P日本欧洲亚洲大胆张筱雨| 国产精品后入内射日本在线观看 | 老公和兄弟一前一后攻击| 国产自无码视频在线观看| 中国VODAFONEWIFI粗| 国产成人精品无码青草| 久久久久亚洲AV成人人电影| 99品一二三产区区别| 国产乱码一区二区三区免费| 大象成品网站1688入口官网| 拔萝卜视频免费观看高清下载 | 无码人妻精品一区二区三区下载 | 曰本熟妇色XXXXX曰本妇| 亚洲国产精品一区二区美利坚| 亚洲丰满熟妇乱XXXXX网站| 亚洲日韩丝袜熟女变态夜夜爽| 亚洲少妇吃奶摸下| 亚洲 精品 制服 校园 无码| 国产精品久久久久久久久电影网| 亚洲中文字幕无码一区无广告| 一本大道色卡1卡2卡3| 国产精品揄拍100视频| 欧美性战A久久久久久| 色综合久久久久综合一本到桃花网| 一边做一边喷17P亚洲乱妇| 国产麻豆剧传媒精品国产AV蜜桃| 人妻 偷拍 无码 中文字幕| 野花香高清视频在线观看免费 | 国产精品青草久久福利不卡| 亲孑伦视频一区二区三区视频| 亚洲一区二区三区在线观看网站| 国产高清午夜人成在线观看 | FREEZEFRAME丰满老妇| 久久亚洲精品成人AV无码网站 | 日韩精品久久久免费观看| 最新精品国偷自产在线下载| 精品一区二区三区在线视频| 香港经典A毛片免费观看变态| 色综合色综合久久综合频道88 | 国产成人无码AA精品一区色欲| 欧美成本人网站免费观看| 夜夜爽8888免费视频| 精品麻豆国产色欲色欲色欲WWW| 无码人妻精品一区二区三区蜜桃91 | 天堂资源とまりせっくす| 成人毛片100免费观看| 欧美日韩在线视频| 无码AV最新无码AV专区| 成人免费视频一区二区| 青草伊人久久综在合线亚洲| 自拍偷在线精品自拍偷| 久久综合色天天久久综合图片 | 丝袜一区二区三区在线播放| 别揉我奶头~嗯~啊~| 人妻Av一区二区三区| CHINESE中年熟妇FREE| 国内精品免费视频自在线拍| 玩肥熟老妇BBW视频| 中文乱码在线中文字幕中文乱码 | 男配每天都在体内成结节 | 久久婷婷人人澡人爽人人喊| 亚洲午夜理论无码电影| 精品国产V无码大片在线观看 | 狠狠躁日日躁夜夜躁2020| 亚洲AV激情无码专区在线下载| 国产精品久久久久久亚洲AV| 熟女少妇a性色生活片毛片| 丰满熟妇乱又伦精品| 四川老妇女乱HD| 国产成人亚洲精品无码H在线| 三个人换着躁B一PL| 放荡大屁股少妇高潮喷水| 日本AⅤ精品一区二区三区| 菠萝蜜进口路线区二1688| 日韩人妻精品一区二区三区视频 | 日产精品1区2区3区| 成人亚洲AV网站在线看AAAA| 色综合精品无码一区二区三区| 第九午夜不卡影院| 四虎WWW成人影院观看| 国产成人蜜桃AV无码永久免费| 忘忧草社区在线影视| 国产真实伦在线观看| 人妻少妇不满足中文字幕| 啊别插了视频高清在线观看 | 亚洲无人区码二码三码区别| 久久久久人妻精品区一| 中日AV乱码一区二区三区乱码| 妺妺窝人体色WWW在线韩国| JAPANESEHD熟女熟妇| 日韩欧美一区二区三区视频| 国产激情无码一区二区三区| 亚洲AV成人午夜亚洲美女 | 欧产日产国色天香区别9视频| JAPANESE少妇高潮喷水| 亚洲一区日韩高清中文字幕亚洲| 国产乱子伦一区二区三区=| 亚洲韩国精品无码一区二区三区| 久久久久99人妻一区二区三区| 中国亚州女人69内射少妇| 欧美熟妇另类久久久久久不卡| 成人网站在线观看丰满少妇电影| 铜铜铜铜铜铜铜好多水谜妹| 国精一二二产品无人区免费应用| 亚洲一区二区三区中文字幕在线| 免费无码午夜福利电影网| 超碰人人透人人爽人人看| 无码人妻丰满熟妇区五十路百度| 精产国品一二三产品区别在哪里| 找老女人泻火对白自拍| 日本丰满熟妇55乱偷| 国产精品偷伦视频免费观看了| 亚洲高清国产拍精品熟女| 美女扒开腿让男人桶爽揉| 被下春药爽翻天按摩的人妻| 无码精品人妻一区二区三区ap| 精品成人乱色一区二区| 91精品人妻一区二区三在线 | 成年女人18级毛片毛片免费 | 一线产区与二线产区的定义| 欧美午夜性春猛交XXX| 国产成人亚洲综合| 亚洲日本一区二区三区在线不卡| 欧美成人一区二区三区在线视频| 高清国产亚洲精品自在久久| 亚洲精品乱码久久久久久不卡| 男女差差差差差打扑克视频| 国产成人精品高清在线观看99 | 久久精品国产亚洲AV香蕉| 锕锕锕锕锕锕~好深啊电影APP | 欧洲美熟女乱又伦AV影片| 国产精品福利自产拍在线观看 | 精品国产黑色丝袜高跟鞋| AV电影在线观看| 午夜成人理论福利片| 免费看成人毛片无码视频| 国产刺激男女视频在线| 伊人AV超碰伊人久久久| 婷婷国产三区四区| 麻花豆传媒剧国产MV在线| 国产高清在线精品一本大道|