数据标准化?在数据挖掘中非常重要。帮助标准化特征。使机器学习算法表现更好。人们使用的主要方法有几个。



最小-最大缩放就是其中一种。它将数据压缩到固定范围内。通常是0到1。保持关系不变。一个巧妙的技巧。

Z-Score标准化是另一个。听起来很高大上,对吧?这与平均值和偏差有关。我认为对正态分布很有用。

对数变换。这是针对偏斜数据的。使其看起来更正常。对于广泛的范围或指数型的东西很有用。

强大的扩展性。听起来很难。确实有点难。使用中位数和四分位数。不会轻易受到离群值的影响。

这些技术?它们在数据挖掘中无处不在。算法喜欢标准化的数据。神经网络、k最近邻 - 它们喜欢这些。

但这不仅仅是关于性能。标准化的数据更易于理解。比较特征变得更简单。模型系数更有意义。

还有关于更快收敛的事情。显然,梯度下降效果更好。训练变得更加稳定。

当你有混合数据时呢?不同的尺度,不同的单位?归一化将它们汇聚在一起,使比较变得公平。

所以,数据挖掘者使用这些技术。他们准备他们的数据集。模型表现得更好。洞察变得更可靠。这都是游戏的一部分。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)