pandas.DataFrame.resample() 是 Pandas 中用于按时间频率重采样时间序列数据的重要函数,类似于 groupby,但专门用于处理时间索引。用于将时间序列数据重新采样到不同的频率(如从日数据变为月数据)。它通常与聚合函数(如 .mean()、.sum() 等)结合使用。本文主要介绍一下Pandas中pandas.DataFrame.resample方法的使用。

DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None) [source]

重新采样time-series数据。

频率转换和time series重采样的便捷方法。对象必须具有类似datetime的索引(DatetimeIndex, PeriodIndexTimedeltaIndex),或将类似datetime的值传递给onlevel关键字。

参数:

ruleeDateOffset, Timedeltastr

表示目标转换的偏移字符串或对象。

axis :{0 ‘index’, 1  或 ‘columns’}, 默认为 0

向上采样或向下采样使用哪一个轴。对于级数,默认值为0

即沿着行。必须是DatetimeIndex, TimedeltaIndex

PeriodIndex

closed{‘right’, ‘left’}, 默认为None

bin区间的哪一边是关闭的。

除了‘M’‘A’‘Q’‘BM’‘BA’‘BQ’‘W’之外,

所有频率偏移的默认值都是‘left’

它们的默认值都是‘right’

label {‘right’, ‘left’}, 默认为 None

用哪边标签来标记bucket。

除了‘M’‘A’‘Q’‘BM’‘BA’‘BQ’

‘W’之外,

所有频率偏移的默认值都是‘left’

它们的默认值都是‘right’

convention : {'start', 'end', 's', 'e'},

默认为 'start'

仅对于PeriodIndex,控制是使用规则的开始还是结束。

kind : {‘timestamp’, ‘period’}, 可选, 默认为 None

传递'timestamp'将结果索引转换为DateTimeIndex

'period'将其转换为PeriodIndex。默认情况下,

保留输入表示形式。

loffset : timedelta, 默认为None

调整重新采样的时间标签。

自1.1.0版本以来已弃用 : 

应该将loffset添加到df中。

重新取样后的索引。见下文。

base : int, 默认为0

对于平均细分1天的频率,聚合间隔的“origin”

例如,对于“5min”频率,

基数可以从04。默认值为0

自1.1.0版本以来已弃用:

您应该使用的新参数是'offset''origin'

on : str, 可选

自1.1.0版本以来已弃用:

应该使用的新参数是'offset''origin'

level : strint, 可选

用于重采样的多索引、级别(名称或数字)。

级别必须与日期时间类似。

origin : {‘epoch’, ‘start’, ‘start_day’}

Timestampstr, 默认为 ‘start_day’

调整分组的时间戳。原始时区必须与索引的时区匹配。

如果不使用时间戳,也支持以下值:

1) “epoch”:起源是1970年01月01日

2) 'start ': origin是timeseries的第一个值

2) “start_day”:起源是timeseries午夜的第一天

新版本1.1.0。

offset : Timedeltastr, 默认为 None

加到原点的偏移时间。

新版本1.1.0。

返回值:

Resampler object

Notes

有关 更多信息,请参见用户指南

要了解有关偏移字符串的更多信息,请参见此链接

例子

1)按月重采样并求平均

import pandas as pd

# 创建时间序列数据
rng = pd.date_range('2024-01-01', periods=90, freq='D')
df = pd.DataFrame({'value': range(90)}, index=rng)

# 按月重采样并求平均
monthly_avg = df.resample('M').mean()
print(monthly_avg)

2)非索引列为时间的重采样

import pandas as pd

# 创建时间序列数据
rng = pd.date_range('2024-01-01', periods=90, freq='D')
df = pd.DataFrame({'value': range(90)}, index=rng)

df2 = df.reset_index()
df2.columns = ['date', 'value']

# 使用 on 参数指定时间列
monthly_sum = df2.resample('M', on='date').sum()
print(monthly_sum)

3)重采样为每 7 天求和

import pandas as pd

# 创建时间序列数据
rng = pd.date_range('2024-01-01', periods=90, freq='D')
df = pd.DataFrame({'value': range(90)}, index=rng)

weekly = df.resample('7D').sum()
print(weekly)

4)使用自定义聚合函数(apply)

import pandas as pd
import numpy as np

# 创建9个一分钟间隔的时间戳索引
index = pd.date_range('1/1/2000', periods=9, freq='T')
series = pd.Series(range(9), index=index)
print(series)


def custom_resampler(x):
    return np.sum(x) + 5

print(series.resample('3T').apply(custom_resampler))

5)PeriodIndex 按季度转为月度(convention='end')

import pandas as pd
import numpy as np


q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018Q1', freq='Q', periods=4))
print(q.resample('M', convention='end').asfreq())

推荐文档

相关文档

大家感兴趣的内容

随机列表