數據標準化?在數據挖掘中非常重要。幫助標準化特徵。使機器學習算法表現更好。人們使用的主要方法有幾個。



最小-最大縮放就是其中一種。它將數據壓縮到固定範圍內。通常是0到1。保持關係不變。一個巧妙的技巧。

Z-Score標準化是另一個。聽起來很高大上,對吧?這與平均值和偏差有關。我認爲對正態分布很有用。

對數變換。這是針對偏斜數據的。使其看起來更正常。對於廣泛的範圍或指數型的東西很有用。

強大的擴展性。聽起來很難。確實有點難。使用中位數和四分位數。不會輕易受到離羣值的影響。

這些技術?它們在數據挖掘中無處不在。算法喜歡標準化的數據。神經網路、k最近鄰 - 它們喜歡這些。

但這不僅僅是關於性能。標準化的數據更易於理解。比較特徵變得更簡單。模型系數更有意義。

還有關於更快收斂的事情。顯然,梯度下降效果更好。訓練變得更加穩定。

當你有混合數據時呢?不同的尺度,不同的單位?歸一化將它們匯聚在一起,使比較變得公平。

所以,數據挖掘者使用這些技術。他們準備他們的數據集。模型表現得更好。洞察變得更可靠。這都是遊戲的一部分。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)