Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中pandas.DataFrame.corr方法的使用。

DataFrame.corr(method ='pearson' , min_periods = 1 )

计算列的成对相关性,不包括NA/null值。

参数

method: {'pearson','kendall','spearman'}callable

  pearson:标准相关系数

  kendall:Kendall Tau相关系数

  spearman:Spearman等级相关

  callable:可输入两个1d ndarray来调用

并返回一个float。添加的版本 : 0.24.0

min_periods : int,可选

观察每对列所需的最小数,以获得有效结果。

目前仅适用于pearson和spearman correlation

返回

y : DataFrame

例子

>>> histogram_intersection = lambda a, b: np.minimum(a, b
... ).sum().round(decimals=1)
>>> df = pd.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
... columns=['dogs', 'cats'])
>>> df.corr(method=histogram_intersection)
dogs cats
dogs 1.0 0.3
cats 0.3 1.0