panda

python - 按时间窗口分组的 Pandas

编辑:Sessiongenerationfromlogfileanalysiswithpandas似乎正是我要找的东西。我有一个包含非唯一时间戳的数据框，我想按时间窗口对它们进行分组。基本逻辑是——1)通过在时间戳前后添加n分钟，从每个时间戳创建一个时间范围。2)按重叠的时间范围分组。这里的最终效果是时间窗口将与单个时间戳+/-时间缓冲区一样小，但时间窗口的大小没有上限，只要多个事件之间的距离小于时间缓冲感觉df.groupby(pd.TimeGrouper(minutes=n))是正确的答案，但我不知道如何让TimeGrouper在看到时间缓冲区内的事件时创建动态时间范围.例如，如果

按时 python 2013 01 10 pandas

python - 强制 .ix 返回 pandas 中的 DataFrame

当我将.ix与DataFrame一起使用时，有什么方法可以强制pandas始终返回DataFrame？例如，如果我运行以下行，importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.arange(6).reshape(3,2),index=[0,0,1])x=df.ix[0]y=df.ix[1]那么x就是一个DataFrame，因为0在索引中出现了两次，y就是一个Series，因为1在索引中是唯一的。我也希望y成为DataFrame(因为我在结果上使用的是iterrows()，它不是为Series定义的)。我可以检查.ix返回的任何类型，并在

DataFrame python section code pandas

Python Pandas figsize 未定义

我是pandas的新手，用于数据分析，我刚刚安装了具有所需依赖项(NumPy、python-dateutil、pytz、numexpr、bottleneck和matplotlib)的pandas。但是当我开始尝试最基本的代码时:importpandasaspdpd.set_option('display.mpl_style','default')#Makethegraphsabitprettierfigsize(15,5)它提示NameError:name'figsize'isnotdefined.我不确定我是否还需要一些其他依赖项。任何人都可以阐明这一点吗？

未定 figsize code section pylab python pandas data-analysis

python - Pandas:扩展系列的索引，使其包含范围内的所有值

我有一个看起来像这样的pandas系列:>>>x.sort_index()21526384我想填写这个系列，以便表示“缺失”的索引行，用0填充数据值。所以当我列出新系列时，它看起来像这样:>>>z.sort_index()1021304052637084我试过创建一个“虚拟”系列>>>y=pd.Series([0foriinrange(0,8)])0010203040506070然后将它们连接在一起-但结果是:>>>pd.concat([x,z],axis=0)215263840010203040506070或者>>>pd.concat([x,z],axis=1)010NaN01NaN

python Pandas code section pre

python - 根据两列的值选择 Pandas 数据框行

我希望根据两个列值选择一些特定的行。例如:d={'user':[1.,2.,3.,4],'item':[5.,6.,7.,8.],'f1':[9.,16.,17.,18.],'f2':[4,5,6,5],'f3':[4,5,5,8]}df=pd.DataFrame(d)printdfOut:f1f2f3itemuser094451116556221765733185884我想根据“用户”和“项目”的值选择行。给定一个存储[user,item]值对的2dnumpy数组:samples=np.array([[1,5],[3,7],[3,7],[2,6]])Out:array([[1,5],

python Pandas code 39 pre arrays numpy dataframe

python - Pandas :无法根据字符串相等性进行过滤

在python2.7、OSX上使用pandas0.16.2。我从这样的csv文件中读取数据帧:importpandasaspddata=pd.read_csv("my_csv_file.csv",sep='\t',skiprows=(0),header=(0))data.dtypes的输出是:nameobjectweightfloat64ethnicityobjectdtype:object我期待姓名和种族的字符串类型。但是我在SO上找到了为什么它们在较新的pandas版本中是“对象”的原因。现在，我想根据种族选择行，例如:data[data['ethnicity']=='Asian'

python Pandas code ethnicity data string filtering selection

python - Pandas 中的逐元素异或

我知道逻辑与是&，逻辑或是|在Pandas系列中，但我一直在寻找一个元素明智的逻辑异或。我想我可以用AND和OR来表达它，但如果可用，我更愿意使用XOR。谢谢! 最佳答案 Python异或:a^bNumpylogicalXOR:np.logical_xor(a,b)测试性能-结果相同:1。大小为10000的随机bool值序列In[7]:a=np.random.choice([True,False],size=10000)In[8]:b=np.random.choice([True,False],size=10000)In[9]:%t

python Pandas intermediate code section logic xor

python - Pyinstaller 和 Pandas 的 ImportError

我正在尝试将一个简短的python脚本捆绑到一个可执行文件中。我能够使用成功运行pyinstallerpyinstallerscript.py但是，当我运行可执行文件时，出现以下错误。我已经尝试了一切，但似乎没有任何效果。C:\Users\...\Python\dist\script>scriptTraceback(mostrecentcalllast):File"",line2,inFile"c:\users\user\appdata\local\temp\pip-build-0pjuke\pyinstaller\PyInstaller\loader\pyimod03_importe

Pyinstaller ImportError pandas code python

python - 使用 map : A value is trying to be set on a copy of a slice from a DataFrame 时的 Pandas 警告

我有以下代码并且可以正常工作。这基本上重命名了列中的值，以便以后可以合并它们。pop=pd.read_csv('population.csv')pop_recent=pop[pop['Year']==2014]mapping={'Korea,Rep.':'SouthKorea','Taiwan,China':'Taiwan'}f=lambdax:mapping.get(x,x)pop_recent['CountryName']=pop_recent['CountryName'].map(f)Warning:Avalueistryingtobesetonacopyofaslicefrom

DataFrame python 39 code pop pandas

python - Pandas DataFrame 中每月平均每日记录数

我有一个带有TIMESTAMP列的pandasDataFrame，它是datetime64数据类型。请记住，最初此列未设置为索引；索引只是常规整数，前几行如下所示:TIMESTAMPTYPE02014-07-2511:50:30.640212014-07-2511:50:46.160322014-07-2511:50:57.3702每天有任意条记录，也可能有几天没有数据。我想要获取的是每月平均每日记录数，然后将其绘制为一个条形图，x轴为月份(2014年4月、2014年5月...等)。我设法使用下面的代码计算了这些值dfWIM.index=dfWIM.TIMESTAMPforiinran

DataFrame 每月 TIMESTAMP code 39 python pandas time-series

251 252 253254255 256 257