成人怡红院-成人怡红院视频在线观看-成人影视大全-成人影院203nnxyz-美女毛片在线看-美女免费黄

站長資訊網
最全最豐富的資訊網站

Python數據異常值檢測和處理(實例詳解)

本篇文章給大家帶來了關于python的相關知識,其中主要介紹了數據分析中異常值的相關問題,一般異常值的檢測方法有基于統計的方法,基于聚類的方法,以及一些專門檢測異常值的方法等,下面對這些方法進行相關的介紹,希望對大家有幫助。

Python數據異常值檢測和處理(實例詳解)

推薦學習:python學習教程

1 什么是異常值?

在機器學習中,異常檢測和處理是一個比較小的分支,或者說,是機器學習的一個副產物,因為在一般的預測問題中,模型通常是對整體樣本數據結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表現完全與整體樣本不一致的點,我們就稱其為異常點,通常異常點在預測問題中是不受開發者歡迎的,因為預測問題通產關注的是整體樣本的性質,而異常點的生成機制與整體樣本完全不一致,如果算法對異常點敏感,那么生成的模型并不能對整體樣本有一個較好的表達,從而預測也會不準確。 從另一方面來說,異常點在某些場景下反而令分析者感到極大興趣,如疾病預測,通常健康人的身體指標在某些維度上是相似,如果一個人的身體指標出現了異常,那么他的身體情況在某些方面肯定發生了改變,當然這種改變并不一定是由疾病引起(通常被稱為噪音點),但異常的發生和檢測是疾病預測一個重要起始點。相似的場景也可以應用到信用欺詐,網絡攻擊等等。

2 異常值的檢測方法

一般異常值的檢測方法有基于統計的方法,基于聚類的方法,以及一些專門檢測異常值的方法等,下面對這些方法進行相關的介紹。

1. 簡單統計

如果使用pandas,我們可以直接使用describe()來觀察數據的統計性描述(只是粗略的觀察一些統計量),不過統計數據為連續型的,如下:

df.describe()

Python數據異常值檢測和處理(實例詳解)

或者簡單使用散點圖也能很清晰的觀察到異常值的存在。如下所示:

Python數據異常值檢測和處理(實例詳解)

2. 3?原則

這個原則有個條件:數據需要服從正態分布。在3?原則下,異常值如超過3倍標準差,那么可以將其視為異常值。正負3?的概率是99.7%,那么距離平均值3?之外的值出現的概率為P(|x-u| > 3?) <= 0.003,屬于極個別的小概率事件。如果數據不服從正態分布,也可以用遠離平均值的多少倍標準差來描述。

Python數據異常值檢測和處理(實例詳解)

紅色箭頭所指就是異常值。

3. 箱型圖

這種方法是利用箱型圖的四分位距(IQR)對異常值進行檢測,也叫Tukey‘s test。箱型圖的定義如下:

Python數據異常值檢測和處理(實例詳解)

四分位距(IQR)就是上四分位與下四分位的差值。而我們通過IQR的1.5倍為標準,規定:超過上四分位+1.5倍IQR距離,或者下四分位-1.5倍IQR距離的點為異常值。下面是Python中的代碼實現,主要使用了numpypercentile方法。

Percentile = np.percentile(df['length'],[0,25,50,75,100]) IQR = Percentile[3] - Percentile[1] UpLimit = Percentile[3]+ageIQR*1.5 DownLimit = Percentile[1]-ageIQR*1.5

也可以使用seaborn的可視化方法boxplot來實現:

f,ax=plt.subplots(figsize=(10,8)) sns.boxplot(y='length',data=df,ax=ax) plt.show()

Python數據異常值檢測和處理(實例詳解)

紅色箭頭所指就是異常值。

以上是常用到的判斷異常值的簡單方法。下面來介紹一些較為復雜的檢測異常值算法,由于涉及內容較多,僅介紹核心思想,感興趣的朋友可自行深入研究。

4. 基于模型檢測

這種方法一般會構建一個概率分布模型,并計算對象符合該模型的概率,把具有低概率的對象視為異常點。如果模型是簇的集合,則異常是不顯著屬于任何簇的對象;如果模型是回歸時,異常是相對遠離預測值的對象。

離群點的概率定義:離群點是一個對象,關于數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什么分布,如果估計錯誤就造成了重尾分布。

比如特征工程中的RobustScaler方法,在做數據特征值縮放的時候,它會利用數據特征的分位數分布,將數據根據分位數劃分為多段,只取中間段來做縮放,比如只取25%分位數到75%分位數的數據做縮放。這樣減小了異常數據的影響。

優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對于多元數據,可用的選擇少一些,并且對于高維數據,這些檢測可能性很差。

5. 基于近鄰度的離群點檢測

統計方法是利用數據的分布來觀察異常值,一些方法甚至需要一些分布條件,而在實際中數據的分布很難達到一些假設條件,在使用上有一定的局限性。

確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。這種方法比統計學方法更一般、更容易使用,因為一個對象的離群點得分由到它的k-最近鄰(KNN)的距離給定。

需要注意的是:離群點得分對k的取值高度敏感。如果k太小,則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少于k的簇中所有的對象可能都成了離群點。為了使該方案對于k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。

優缺點:(1)簡單;(2)缺點:基于鄰近度的方法需要O(m2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。

5. 基于密度的離群點檢測

從基于密度的觀點來說,離群點是在低密度區域中的對象?;诿芏鹊碾x群點檢測與基于鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類算法使用的密度定義,即一個對象周圍的密度等于該對象指定距離d內對象的個數。

優缺點:(1)給出了對象是離群點的定量度量,并且即使數據具有不同的區域也能夠很好的處理;(2)與基于距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對于低維數據使用特定的數據結構可以達到O(mlogm);(3)參數選擇是困難的。雖然LOF算法通過觀察不同的k值,然后取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。

6. 基于聚類的方法來做異常點檢測

基于聚類的離群點:一個對象是基于聚類的離群點,如果該對象不強屬于任何簇,那么該對象屬于離群點。

離群點對初始聚類的影響:如果通過聚類檢測離群點,則由于離群點影響聚類,存在一個問題:結構是否有效。這也是k-means算法的缺點,對離群點敏感。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。

優缺點:(1)基于線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;(4)聚類算法產生的簇的質量對該算法產生的離群點的質量影響非常大。

7. 專門的離群點檢測

其實以上說到聚類方法的本意是是無監督分類,并不是為了尋找離群點的,只是恰好它的功能可以實現離群點的檢測,算是一個衍生的功能。

除了以上提及的方法,還有兩個專門用于檢測異常點的方法比較常用:One Class SVMIsolation Forest,詳細內容不進行深入研究。

3 異常值的處理方法

檢測到了異常值,我們需要對其進行一定的處理。而一般異常值的處理方法可大致分為以下幾種:

  • 刪除含有異常值的記錄:直接將含有異常值的記錄刪除;
  • 視為缺失值:將異常值視為缺失值,利用缺失值處理的方法進行處理;
  • 平均值修正:可用前后兩個觀測值的平均值修正該異常值;
  • 不處理:直接在具有異常值的數據集上進行數據挖掘;

是否要刪除異常值可根據實際情況考慮。因為一些模型對異常值不很敏感,即使有異常值也不影響模型效果,但是一些模型比如邏輯回歸LR對異常值很敏感,如果不進行處理,可能會出現過擬合等非常差的效果。

4 異常值總結

以上是對異常值檢測和處理方法的匯總。

通過一些檢測方法我們可以找到異常值,但所得結果并不是絕對正確的,具體情況還需自己根據業務的理解加以判斷。同樣,對于異常值如何處理,是該刪除,修正,還是不處理也需結合實際情況考慮,沒有固定的。

推薦學習:python教程

贊(0)
分享到: 更多 (0)
?
網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
丰满人妻被公侵犯完整版| 西西人体午夜视频无码| 爸的比老公大两倍儿媳叫什么呢| 亚洲成a人片在线观看无码专区| 少妇人妻综合久久中文888| 欧美激情综合色综合啪啪五月| 久久久久国色AV免费看图片| 韩漫嘿啾漫画进入| 国产精品丝袜一区二区三区| 大地韩国日本HD免费完整| JAPANESE军人强迫| 中文字幕人妻无码专区APP| 野草高清视频免费| 亚洲精品国偷拍自产在线观看 | 无码人妻一区二区三区兔费| 日韩v亚洲v欧美v精品综合| 男女裸交免费无遮挡全过程| 久久久久夜夜夜精品国产| 河南妇女毛深深的沟WCD| 久久人妻AV无码中文专区| 久久精品国产亚洲AV麻豆小说| 国产亚洲欧美另类一区二区三区| 国产精品久久久久久无码| 国产精品SP调教打屁股| 国产粗话肉麻对白在线播放| 国产二级一片内射视频插放| 精品国产污污免费网站入口| 精品国色天香一卡2卡3卡| 蜜臀av夜夜嗨一区二区粉嫩| 蜜臀久久99精品久久久久久小说| 人妻天天爽夜夜爽一区二区| 欧美高清精品一区二区| 公么大龟弄得我好舒服第一| 免费的看片APP| 久久久久亚洲AV无码尤物| 免费观看电视剧全集在线播放| 日本乱偷互换人妻中文字幕| 日本工口里番H彩色无遮挡全彩 | 中文字幕久久波多野结衣AV不卡 | JAPANESE日本熟妇伦| 国产护士在线视频XXXX免费| 久久久久亚洲AV成人无码| 奇米第四色777ME| 人妻少妇精品一区二区三区 | EEUSS影院在线观看| AAA少妇高潮大片免费看| cnⅰnese老女人老熟妇H①| 国产偷自视频区视频| 含羞草亚洲AV无码久久精品| 韩国三级丰满少妇高潮| 哦┅┅快┅┅用力啊┅警花少妇 | 99久久人妻无码精品系列蜜桃| JAPANESE国产在线看| 国产亚洲精品第一综合麻豆| 欧美日韩不卡高清在线看| 日产精品一线二线三线京东| 亚洲日本一本DVD高清| 中文字幕AV免费专区| 八戒八戒神马2021| 精品日产A一卡2卡三卡4卡乱| 久久露脸国产精品| 天天躁日日躁狠狠久久| 亚洲成A人片在线观看无遮挡| www.五月丁香| 国产精口品美女乱子伦高潮| 内射夜晚在线观看| 爽一点搔一点叫大声点| 亚洲AV永久无码精品无码自慰| 亚洲中文字幕日产无码| FREEZEFRAME丰满老妇| 黑人欧美一区二区三区4p| 免费无码又爽又刺激高潮的动态图 | 少妇开裆肉丝自慰流白浆| 亚洲AV无码专区在线电影| 按摩师用嘴亲我下面过程| 久久天天躁狠狠躁夜夜网站| 性XXXⅩ俄罗斯女人| 一面亲上边一面膜下边| 超碰成人人人做人人爽| 国产专区一线二线三线品牌东 | 国产乱来乱子视频| 久久亚洲精品成人无码| 日本一卡二卡四卡无卡国产| 香蕉免费一区二区三区| 成·人免费午夜无码不卡| 乱中年女人伦AV二区| 视频一区二区三区免费| AV免费啪啪永久| 久久综合九色综合欧美狠狠| 深灬深灬深灬深灬一点| 99热成人精品热久久6| 久久精品AⅤ无码中文字字幕重口 久久精品AⅤ无码中文字字幕蜜桃 | 色在线 | 国产| 亚洲日韩乱码久久久久久| 国产精品国产三级国产专区50| 人妻无码精品久久亚瑟影视| 16ⅤIDE0SEX性欧| 国产乱人伦偷精品视频| 你真紧你这是要我的命吗什么意思| 亚洲精品456在线播放| 白嫖B站激活码2023| 妺妺窝人体色www聚色窝图| 亚洲午夜成人精品无码| 扒开双腿猛进入喷水高潮叫声 | 性欧美乱妇COME | 色老头精品午夜福利视频| 亚洲乱码中文字幕综合234| а天堂中文在线官网| 黑人巨茎大战欧美白妇| 午夜成人影片在线观看免费完整高| 中文字幕AⅤ人妻一区二区| 久久精品国产久精国产果冻传媒| 亚洲成AV人片不卡无码| 国精产品一区一区三区糖心| 五月天国产亚洲AV麻豆| 国产精品高潮露脸在线观看| 天天摸天天透天天添| 国产AV精品白浆一区二| 免费A级毛片中文字幕| 又大又粗又硬又爽黄毛少妇| 国产精品美女久久久久AV福利| 少妇BBWBBW高潮| 丰满人妻一区二区三区免费视频| 日韩av无码一区二区| 吃了继兄开的药后我做的梦更长了| 老色鬼久久亚洲AV综合| 无码专区狠狠躁躁天天躁| 啊灬啊灬啊灬啊灬快灬高潮了| 欧美黑人男士和白人美女a级黄片视频在线播放 | 粉嫩av.一区二区三区免费| 毛豆日产精品卡2卡3卡4卡免费 | 四虎精品成人免费视频| 2017亚洲А∨天堂| 免费A级毛片无码A∨蜜芽试看| 中文字幕AV无码一区二区三区电 | 亚洲国产精品热久久| 国产AV无码专区亚洲AV人妖| 天堂А√在线中文在线新版| 国产精品99无码一区二区| 无码性午夜视频在线观看| 国精产品一品二品国精| 亚洲精品无码久久久久苍井空| 精品国精品国产自在久国产不卡| 亚洲日韩乱码1区二区| 麻豆果冻精东九一传媒MV| 20厘米的粗黑巨物挺进| 久久电影网午夜鲁丝片伦| 性猛交富婆Ⅹ×××乱大交| 果冻传媒亚洲区二期| 亚洲熟妇AV一区二区三区| 国内精品久久久久影院蜜芽蜜芽T| 亚洲А∨天堂久久精品PPYPP| 国产精品成人影院在线观看| 亚洲AV成人无码精品综合网站| 国产精品成人影院在线观看| 亚洲AV色香蕉一区二区三区夜夜嗨| 国产成人无码精品久久久免费| 日本理论片YY4800免费| 丰满少妇AV无码区| 性妇WBBBB搡BBBB嗓小说| 久久不见久久见免费影院3| 中文字幕无码乱人伦| 人人澡人人澡人人澡| H无遮挡H无码黄3D漫画| 上面一边亲下一边面膜使用方法 | 欧美交性一级视频免费播放| 厨房里挺进岳丰满大屁股| 无套内内射视频网站| 久久精品久久精品中文字幕| 亚洲精品成A人在线观看| 老熟女HDXX中国老熟女| 爱情岛亚洲AV永久入口首页| 无码OL丝袜高跟秘书在线观看不| 丰满人妻被粗大爽ⅩXOO| 性色AV闺蜜一区二区三区| 久久久久亚洲AV综合波多野结衣| ASIANMATURE老熟妇女| 色欲av夜夜嗨av性色av| 国语做受对白XXXXX在线| 一边做饭一边躁狂怎么办呢69| 人妻无码一区二区三区免费 | 午夜爽爽爽男女免费观看影院| 久久99久久99精品免观看| CHINESE老太性视频BBW| 欧美虐SM另类残忍视频| 国产大片内射1区2区| 亚洲一线产区二线产区区 | 不文女学堂在线观看| 欧美人C交ZOOZOOXX| 国产精品美女乱子伦高潮| 伊人久久大香线蕉无码不卡| 老干部熟女高潮视频| 大学生高潮无套内谢视频| 亚洲精品无码aⅴ中文字幕蜜桃| 欧美人与性囗牲恔配视频0| 国产无套中出学生姝| 7777久久亚洲中文字幕| 清纯校花自慰呻吟流白浆| 处破女轻点疼丨8分钟| 亚洲欧美一区二区成人片婷婷|