🚀 Gate Fun 啓動中文 Meme 創作大賽!
創建或交易 Meme 代幣,瓜分 3,000 GT 獎勵! 💰
🎨 1 分鍾零代碼發幣,僅需 ~0.0000042 GT Gas 費
🏆 最高市值代幣瓜分 1,000 GT
💎 畢業代幣前 100 名購買地址瓜分 2,000 GT
代幣發射時間: 10 月 3 日 00:00 - 10 月 15 日 23:59(UTC+8)
活動時間: 10 月 8 日 17:30 - 10 月 15 日 23:59(UTC+8)
釋放創意,立即參與 👉 https://www.gate.com/announcements/article/47516
#GateFun #GateLayer #Web3 #MemeToken
數據標準化?在數據挖掘中非常重要。幫助標準化特徵。使機器學習算法表現更好。人們使用的主要方法有幾個。
最小-最大縮放就是其中一種。它將數據壓縮到固定範圍內。通常是0到1。保持關係不變。一個巧妙的技巧。
Z-Score標準化是另一個。聽起來很高大上,對吧?這與平均值和偏差有關。我認爲對正態分布很有用。
對數變換。這是針對偏斜數據的。使其看起來更正常。對於廣泛的範圍或指數型的東西很有用。
強大的擴展性。聽起來很難。確實有點難。使用中位數和四分位數。不會輕易受到離羣值的影響。
這些技術?它們在數據挖掘中無處不在。算法喜歡標準化的數據。神經網路、k最近鄰 - 它們喜歡這些。
但這不僅僅是關於性能。標準化的數據更易於理解。比較特徵變得更簡單。模型系數更有意義。
還有關於更快收斂的事情。顯然,梯度下降效果更好。訓練變得更加穩定。
當你有混合數據時呢?不同的尺度,不同的單位?歸一化將它們匯聚在一起,使比較變得公平。
所以,數據挖掘者使用這些技術。他們準備他們的數據集。模型表現得更好。洞察變得更可靠。這都是遊戲的一部分。