草庐IT

df_label

全部标签

python - Dask 连接的简单方法(水平,轴 = 1,列)

行动将两个csv(data.csv和label.csv)读取到单个数据帧。df=dd.read_csv(data_files,delimiter='',header=None,names=['x','y','z','intensity','r','g','b'])df_label=dd.read_csv(label_files,delimiter='',header=None,names=['label'])问题列的串联需要已知的划分。但是设置索引会对数据进行排序,这是我明确不希望的,因为两个文件的顺序是它们的匹配项。df=dd.concat([df,df_label],axis=1)

python - CSV 数据(时间戳和事件)的时间序列图 : x-label constant

(本题可单独阅读,但为:TimeseriesfromCSVdata(Timestampandevents)的续集)我想使用python的pandas模块(参见下面的链接)通过时间序列表示来可视化CSV数据(来自2个文件)。df1的示例数据:TIMESTAMPeventid02017-03-2002:38:24112017-03-2105:59:41122017-03-2312:59:58132017-03-2401:00:07142017-03-2703:00:131“eventid”列始终包含值1,我试图显示数据集中每一天的事件总和。第二个数据集df0具有相似的结构,但仅包含零:df

python - Pandas ,将系列连接到 DF 作为行

我试图将一个系列添加到一个空的DataFrame中,但找不到答案在文档或其他问题中。因为您可以按行附加两个DataFrame或者按列看来系列中必须缺少一个“轴标记”。能谁能解释为什么这不起作用?importPandasaspddf1=pd.DataFrame()s1=pd.Series(['a',5,6])df1=pd.concat([df1,s1],axis=1)#gorunsomeprocessreturns2,s3,sn...s2=pd.Series(['b',8,9])df1=pd.concat([df1,s2],axis=1)s3=pd.Series(['c',10,11])

python - PANDAS 从 df 删除一系列行

我想从数据框的底部删除m行。它是整数索引(有孔)。如何才能做到这一点?Pandas==0.10.1python==2.7.3 最佳答案 使用切片选择你想要的部分:df[:-m]如果你想删除一些中间行,你可以使用drop:df.drop(df.index[3:5]) 关于python-PANDAS从df删除一系列行,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/15703283/

python - 在 matplotlib 中格式化日期时间 xlabels(pandas df.plot() 方法)

我不知道如何更改这些x标签的格式。理想情况下,我想对它们调用strftime('%Y-%m-%d')。我试过set_major_formatter之类的东西,但没有成功。importpandasaspdimportnumpyasnpdate_range=pd.date_range('2014-01-01','2015-01-01',freq='MS')df=pd.DataFrame({'foo':np.random.randint(0,10,len(date_range))},index=date_range)ax=df.plot(kind='bar') 最

python - pandas df 中当前唯一值的计数

我试图在pandasdf中返回count的unique值。它是每个行的累积计数。我的目标是合并一个函数来确定当前在任何时间点出现的值的数量。importpandasaspddf=pd.DataFrame({'A':['8:06:00','11:00:00','11:30:00','12:00:00','13:00:00','13:30:00','14:00:00','17:00:00'],'B':['ABC','ABC','DEF','XYZ','ABC','LMN','DEF','ABC'],'C':[1,2,1,1,3,1,2,4],})ABC08:06:00ABC1111:00:

python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset

Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集,其中包含不同的家庭用电量测量值以及每个测量值的日期。日期,Global_active_power,Global_reactive_power,电压,全局强度,Sub_metering_1,Sub_metering_2,Sub_metering_3我将我的数据集放入pandas数据框中,选择除日期列之外的所有列,然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍,比 df.loc[1] 慢 3,500 倍?

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布;得到一个尖端的开发者。来自github的版本;在您发布的pandas中手动进行一行修改;暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame,使用.

python - Matplotlib 饼图 : How to replace auto-labelled relative values by absolute values

我正在根据matplotlib-demo创建一个饼图:https://matplotlib.org/1.2.1/examples/pylab_examples/pie_demo.html每个frac的百分比似乎是自动标记的。如何用fracs[]中的绝对值替换饼图上绘制的这些自动标记的相对值(%)? 最佳答案 help(pie)说:*autopct*:[*None*|formatstring|formatfunction]Ifnot*None*,isastringorfunctionusedtolabelthewedgeswithth

python - pandas 中 df.reindex() 和 df.set_index() 方法的区别

我对此感到困惑,这很简单,但我没有立即在StackOverflow上找到答案:df.set_index('xcol')使列'xcol'成为索引(当它是df的列时)。但是,df.reindex(myList)从数据帧外部获取索引,例如,从我们在别处定义的名为myList的列表中获取索引。但是,df.reindex(myList)也会将值更改为NA。一个简单的替代方法是:df.index=myList我希望这篇文章能澄清它!也欢迎对这篇文章进行补充! 最佳答案 您可以在一个简单的示例中看到差异。让我们考虑这个数据框:df=pd.Data