数据科学- 统计相关矩阵

相关矩阵

矩阵是按行和列排列的数字数组。

相关矩阵只是显示变量之间相关系数的表格。

在这里,变量在第一行和第一列中表示:

Correlation Matrix

上表使用了来自完整健康数据集的数据。

观察:

  • 我们观察到 Duration 和 Calorie_Burnage 密切相关,相关系数为 0.89。 这是有道理的,因为我们训练的时间越长,燃烧的卡路里就越多
  • 我们观察到 Average_Pulse 和 Calorie_Burnage 之间几乎没有线性关系(相关系数为 0.02)
  • 我们能否得出结论,Average_Pulse 不会影响 Calorie_Burnage? 不,我们稍后会回来回答这个问题!

Python 中的相关矩阵

我们可以使用 Python 中的 corr() 函数来创建相关矩阵。 我们还使用 round() 函数将输出四舍五入到小数点后两位:

实例

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Output:

Correlation Matrix

使用热图

我们可以使用热图来可视化变量之间的相关性:

Correlation Heatmap

相关系数越接近1,方块越绿。

相关系数越接近-1,正方形越棕色。


使用 Seaborn 创建热图

我们可以使用 Seaborn 库创建相关热图(Seaborn是基于matplotlib的可视化库):

实例

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()
亲自试一试 »

示例说明:

  • 将 seaborn 库导入为 sns。
  • 使用 full_health_data 集。
  • 使用 sns.heatmap() 告诉 Python 我们想要一个热图来可视化相关矩阵。
  • 使用相关矩阵。 定义热图的最大值和最小值。 定义 0 为中心。
  • 使用 sns.diverging_palette 定义颜色。 n=500 表示我们希望在同一个调色板中有 500 种颜色。
  • square = True 表示我们希望看到正方形。