课程: 数据可视化的实用技巧
免费学习该课程!
今天就开通帐号,24,900 门业界名师课程任您挑!
为什么要将数据可视化?
大家都习惯使用汇总统计数据, 比如一个班级的平均身高是多少? 每位客户的平均销售额是多少? 这些数字或许是数据集的有用概括, 但也可能掩盖数据中的细节。 这里的风险在于, 依赖汇总可能会有误导性, 甚至将人导向错误的答案。 这方面的典型示例是安斯库姆四重奏。 这四个数据集里的每一个 都包含 11 对 X 和 Y 值。 如果对这些数字应用汇总统计, 我们将得到非常相似的值。 每个数据集的平均 X 值都是 9, 平均 Y 值是 7.5。 X 的方差是 11, Y 的方差是 4.12。 每个数据集的 X 和 Y 之间的相关性 为 0.816, 如果应用线性回归, 就会得到四个数据集的最佳拟合线, 它符合等式 Y=0.5X+3。 于是我们得出结论:这些数据集非常相似。 但如果将这些数据可视化,会怎么样? 首先,为数据集 I 中的 X1 和 Y1 绘图。 我们可以看到一个粗略的线性关系, 最佳拟合线几乎没有变化。 这可能符合我们根据汇总统计得到的结果。 第二个数据集呢?完全不同。 尽管汇总统计数据相同, 但数据点形成了一条非常规整的曲线, 不符合线性关系。 只看那些原始数据,或者说汇总数据, 我们预料不到这个结果。 再看看数据集 Ⅲ。 它存在非常严密的线性关系。 这条直线与回归线的角度非常接近, 除了这个点。 这个离群值非常大。 再说一次,如果不将这些数据可视化, 我们就看不到这个结果。 最后看看数据集 Ⅳ。 看起来数据 X 一直恒定, 除了这里的这个离群值。 所有其他点都与回归线完全拟合。 如果只看汇总统计结果, 这四组数据是相同的, 但如果将数据可视化,会发现它们截然不同。 只查看数据表,我们得不到这个结果。 对这些数据集进行汇总统计, 我们也得不到这个结果, 反而是四个数据集得到相同的汇总结果。 只有可视化这些数据, 我们才能看到数据的真实形状。 对于任何数据集都是如此。 依赖表或数字的汇总,会掩盖数据中的信息。 我们需要将它可视化, 以充分探索、理解和解释数据。 这就是数据可视化的力量。 数据可视化的起点, 取决于数据集和你想知道的东西。 一般来说,你可以提出五个主要问题。 一个事物与另一个事物相比如何? 这个数据与那个数据有何关联? 数据是如何分布的? 数据是如何构成的? 数据在地图上看起来如何? 要提出的第一个问题是 “我想用我的数据找到什么类型的答案?”…
随堂练习,边学边练
下载课堂讲义。学练结合,紧跟进度,轻松巩固知识。