df_dask

python - dask:client.persist 和 client.compute 之间的区别

我对client.persist()和client.compute()之间的区别感到困惑(在某些情况下)似乎都开始了我的计算，并且两者返回异步对象，但不是在我的简单示例中:在这个例子中fromdask.distributedimportClientfromdaskimportdelayedclient=Client()deff(*args):returnargsresult=[delayed(f)(x)forxinrange(1000)]x1=client.compute(result)x2=client.persist(result)这里的x1和x2是不同的，但在一个不那么琐碎的计算

python - Dask 连接的简单方法(水平，轴 = 1，列)

行动将两个csv(data.csv和label.csv)读取到单个数据帧。df=dd.read_csv(data_files,delimiter='',header=None,names=['x','y','z','intensity','r','g','b'])df_label=dd.read_csv(label_files,delimiter='',header=None,names=['label'])问题列的串联需要已知的划分。但是设置索引会对数据进行排序，这是我明确不希望的，因为两个文件的顺序是它们的匹配项。df=dd.concat([df,df_label],axis=1)

python Dask 39 label df_label pandas

python - 理解 Dask 分布式的内存行为

类似于thisquestion，我遇到了分布式Dask的内存问题。然而，在我的例子中，解释并不是客户端试图收集大量数据。这个问题可以基于一个非常简单的任务图来说明:delayed操作列表生成一些固定大小为~500MB的随机数据帧(模拟从文件加载多个分区)。任务图中的下一个操作是获取每个DataFrame的大小。最后将所有大小缩减为一个总大小，即需要返回给客户端的数据很小。出于测试目的，我正在运行本地调度程序/工作程序单线程，限制为2GB内存，即:$dask-scheduler$dask-workerlocalhost:8786--nthreads1--memory-limit20000

python Dask code section 工作人员 dask-delayed

python - Pandas ，将系列连接到 DF 作为行

我试图将一个系列添加到一个空的DataFrame中，但找不到答案在文档或其他问题中。因为您可以按行附加两个DataFrame或者按列看来系列中必须缺少一个“轴标记”。能谁能解释为什么这不起作用？importPandasaspddf1=pd.DataFrame()s1=pd.Series(['a',5,6])df1=pd.concat([df1,s1],axis=1)#gorunsomeprocessreturns2,s3,sn...s2=pd.Series(['b',8,9])df1=pd.concat([df1,s2],axis=1)s3=pd.Series(['c',10,11])

python Pandas DataFrame code section concat series

python - PANDAS 从 df 删除一系列行

我想从数据框的底部删除m行。它是整数索引(有孔)。如何才能做到这一点？Pandas==0.10.1python==2.7.3 最佳答案使用切片选择你想要的部分:df[:-m]如果你想删除一些中间行，你可以使用drop:df.drop(df.index[3:5]) 关于python-PANDAS从df删除一系列行，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/15703283/

python PANDAS section code stackoverflow dataframe

python - 在 matplotlib 中格式化日期时间 xlabels(pandas df.plot() 方法)

我不知道如何更改这些x标签的格式。理想情况下，我想对它们调用strftime('%Y-%m-%d')。我试过set_major_formatter之类的东西，但没有成功。importpandasaspdimportnumpyasnpdate_range=pd.date_range('2014-01-01','2015-01-01',freq='MS')df=pd.DataFrame({'foo':np.random.randint(0,10,len(date_range))},index=date_range)ax=df.plot(kind='bar') 最

matplotlib xlabels section code date_range python pandas

python - dask 和 pandas 数据框中的嵌套 numpy 数组

在处理图像和音频的机器/深度学习代码中，一个常见的用例是加载和操作图像或音频片段的大型数据集。这些数据集中的条目几乎总是由图像/音频片段和元数据(例如类标签、训练/测试实例等)表示。例如，在我的语音识别具体用例中，数据集几乎总是由具有以下属性的条目组成:演讲者ID(字符串)成绩单(字符串)测试数据(bool)Wav数据(numpy数组)数据集名称(字符串)...在pandas和/或dask中表示此类数据集的推荐方法是什么-强调wav数据(在图像数据集中，这将是图像数据本身)？在Pandas中，带有fewtricks，可以在列中嵌套一个numpy数组，但这不能很好地序列化，也不能与das

python pandas section noreferrer strong numpy dask

python - pandas df 中当前唯一值的计数

我试图在pandasdf中返回count的unique值。它是每个行的累积计数。我的目标是合并一个函数来确定当前在任何时间点出现的值的数量。importpandasaspddf=pd.DataFrame({'A':['8:06:00','11:00:00','11:30:00','12:00:00','13:00:00','13:30:00','14:00:00','17:00:00'],'B':['ABC','ABC','DEF','XYZ','ABC','LMN','DEF','ABC'],'C':[1,2,1,1,3,1,2,4],})ABC08:06:00ABC1111:00:

python pandas code 39 00 count unique

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍，比 df.loc[1] 慢 3,500 倍？

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布；得到一个尖端的开发者。来自github的版本；在您发布的pandas中手动进行一行修改；暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame，使用.

DataFrame loc code strong df python performance pandas

python - dask 数据框如何将列转换为 to_datetime

我正在尝试将我的数据框的一列转换为日期时间。在此处进行讨论https://github.com/dask/dask/issues/863我尝试了以下代码:importdask.dataframeasdddf['time'].map_partitions(pd.to_datetime,columns='time').compute()但是我收到以下错误信息ValueError:Metadatainferencefailed,pleaseprovide`meta`keyword我到底应该把什么放在meta下？我应该将所有列的字典放在df中还是只放在“时间”列中？我应该放什么类型的？我已经尝

to_datetime datetime code map_partitions pre python pandas dask

2 3 456 7 8