Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中pandas.DataFrame()方法的使用。

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

具有标记轴(行和列)的二维大小可变、可能异构的表格数据结构。算术运算在行和列标签上对齐。可以将其看作是系列对象的类似于dict的容器。主要的panda数据结构。

参数:

data : ndarray(结构化或同构)、IterabledictDataFrame

Dict可以包含序列、数组、常量或类似列表的对象

在版本0.23.0中进行了更改:如果数据是dict,

则Python 3.6及更高版本将维护参数顺序

index :指数或类数组

用于生成frame的索引。如果输入数据中没有索引信息,

也没有提供索引,那么默认值为RangeIndex 

columns : 指数或类数组

用于生成frame的列标签。如果没有提供列标签,

默认值为RangeIndex(0,1,2,…,n)

dtype : dtype,默认None

要强制执行的数据类型。只允许一个dtype

如果None,则进行推断

copy : boolean, 默认 False

从输入复制数据。只影响DataFrame / 2d ndarray输入

例子

从dictionary构造DataFrame

>>> d = {'col1': [1, 2], 'col2': [3, 4]}
>>> df = pd.DataFrame(data=d)
>>> df
   col1  col2
0     1     3
1     2     4

推断的dtype是int64

>>> df.dtypes
col1    int64
col2    int64
dtype: object

强制执行单个dtype

>>> df = pd.DataFrame(data=d, dtype=np.int8)
>>> df.dtypes
col1    int8
col2    int8
dtype: object

从numpy ndarray构造DataFrame

>>> df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
...                    columns=['a', 'b', 'c'])
>>> df2
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

官方文档http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame