1、什么是DataFrame?
Pandas DataFrame是2维数据结构,例如,2维数组或具有行和列的表。
例如:
创建一个简单的Pandas DataFrame:
import pandas as pd data = { "calories": [420, 380, 390], "duration": [50, 40, 45] } #load data into a DataFrame object: df = pd.DataFrame(data) print(df)
Result
calories duration
0 420 50
1 380 40
2 390 45
2、loc定位行
从上面的结果可以看出,DataFrame就像是一个具有行和列的表。
Pandas使用loc
属性返回一个或多个指定行
例如:
返回第0行:
#refer to the row index: print(df.loc[0])
Result
calories 420
duration 50
Name: 0, dtype: int64
注意:此示例返回Pandas Series。
例如:
返回第0行和第1行:
#use a list of indexes: print(df.loc[[0, 1]])
Result
calories duration
0 420 50
1 380 40
注意:使用[]
时,结果是熊猫DataFrame。
3、命名索引
使用index
参数,可以命名自己的索引。
例如:
添加名称列表,为每一行命名:
import pandas as pd
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df)
Result
calories duration
day1 420 50
day2 380 40
day3 390 45
4、定位命名索引
在loc
属性中使用命名索引返回指定的行。
例如:
Return "day2":
#refer to the named index: print(df.loc["day2"])
Result
calories 380
duration 40
Name: 0, dtype: int64
5、将文件加载到DataFrame
如果数据集存储在文件中,Pandas可以将它们加载到DataFrame中。
例如:
将逗号分隔的文件(CSV文件)加载到DataFrame中:
import pandas as pd df = pd.read_csv('data.csv') print(df)
将在下一个文档中介绍有关导入文件的更多信息。