sample_dataframe

python - Dask DataFrame Groupby 分区

我有一些相当大的csv文件(~10gb)，想利用dask进行分析。但是，根据我设置要读入的dask对象的分区数，我的groupby结果会发生变化。我的理解是dask利用分区来获得核外处理的好处，但它仍会返回适当的groupby输出。情况似乎并非如此，我正在努力找出需要哪些替代设置。下面是一个小例子:df=pd.DataFrame({'A':np.arange(100),'B':np.random.randn(100),'C':np.random.randn(100),'Grp1':np.repeat([1,2],50),'Grp2':[3,4,5,6],25)})test_dd1=dd

DataFrame Groupby Grp 39 test python pandas dask

python - 在 pandas.DataFrame.query() 表达式中使用负数

我正在尝试按如下方式使用pandas.DataFrame.query()函数:expression_string='ColumnName该代码适用于正数，但是当负数传递给字符串时，如上所示，它返回以下错误:AttributeError:'UnaryOp'objecthasnoattribute'value'关于如何在DataFramequery()表达式中使用负数有什么建议吗？谢谢!! 最佳答案我可以在具有特定数据类型的pandasv0.20.3上重现此错误；例如，np.float32。解决方法是显式转换为float。这是一个已知

DataFrame python code section 39 pandas

python - pandas stack and unstack performance reduced after dataframe compression 并且比 R 的 data.table 差很多

这个问题是关于在堆叠和取消堆叠操作期间提升Pandas的性能。问题是我有一个大数据框(~2GB)。我关注了thisblog成功将其压缩到~150MB。但是，我的入栈和出栈操作会花费无限长的时间，以至于我必须终止内核并重新启动所有程序。我也用过R的data.table包，飞起来了，我在SO上对此进行了研究。似乎有人在Dataframeunstackperformance-pandas上指向map-reduce线程，但我不确定它有两个原因:stack和unstack在未压缩的情况下在pandas中运行良好，但由于内存问题，我无法在我的原始数据集上执行此操作。R的data.table很容易(

compression performance code 39 ddata python r pandas data.table

python - 将 pandas.DataFrame 转换为字节

我需要将存储在pandas.DataFrame中的数据转换为字节字符串，其中每一列都可以有一个单独的数据类型(整数或float)。这是一组简单的数据:df=pd.DataFrame([10,15,20],dtype='u1',columns=['a'])df['b']=np.array([np.iinfo('u8').max,230498234019,32094812309],dtype='u8')df['c']=np.array([1.324e10,3.14159,234.1341],dtype='f8')df看起来像这样:abc010184467440737095516151.32

DataFrame python code 39 section numpy pandas type-conversion

python - 如何移动 pandas DataFrame 中的多行？

我有以下Pandas数据框:importpandasaspddata={'one':pd.Series([1.],index=['a']),'two':pd.Series([1.,2.],index=['a','b']),'three':pd.Series([1.,2.,3.,4.],index=['a','b','c','d'])}df=pd.DataFrame(data)df=df[["one","two","three"]]onetwothreea1.01.01.0bNaN2.02.0cNaNNaN3.0dNaNNaN4.0我知道如何按列向上/向下移动元素，例如df.two=df

多行 DataFrame code NaN 39 python pandas shift

python - 如何将 pandas DataFrame 的索引 dtype 更改为 int32？

DataFrame索引的默认dtype是int64，我想将其更改为int32。我尝试用pd.DataFrame.set_index改变它和int32的NumPy数组，也尝试使用dtype=np.int32创建新索引。它不起作用，总是返回int64的索引。有人可以展示一个工作代码来生成int32大小的Pandas索引吗？我使用的是condaPandasv0.20.1。最佳答案不确定这在实践中是否值得做，但以下应该可行:classInt32Index(pd.Int64Index):_default_dtype=np.int32@pr

DataFrame python code section pandas numpy indexing

python - Pandas DataFrame.update() 函数中的 `overwrite` 参数有什么作用？

我读了this文档，但我不明白overwrite选项实际上对update过程做了什么。我测试了几个案例，但在每个案例中，无论我将overwrite设置为True还是False都没有区别。有人可以举例说明它确实有所作为吗？最佳答案不同的是，当overwrite设置为false时，它只会填充调用update的DataFrame中的缺失值.基于您提供的链接中的示例(使用默认值overwrite=True):df=pd.DataFrame({'A':[1,2,3],'B':[400,None,600]})new_df=pd.DataFr

DataFrame overwrite code section python pandas

python - 加速从 pandas dataframe 到 mysql 的数据插入

我需要使用sqlalchemy和python将60000x24数据帧插入到mysql数据库(MariaDB)中。数据库在本地运行，数据插入也在本地运行。现在我一直在使用LOADDATAINFILEsql查询，但这需要将数据帧转储到CSV文件中，这大约需要1.5-2秒。问题是我必须插入40个或更多这样的数据帧，所以时间很紧迫。如果我使用df.to_sql那么问题会变得更糟。每个数据帧的数据插入至少需要7(最多30)秒。下面提供了我使用的代码:sql_query="CREATETABLEIFNOTEXISTStable(AFLOAT,BFLOAT,CFLOAT)"#24columnsoft

dataframe python code section sql_query mysql pandas performance mariadb

python - 以最小的内存占用拆分大型 Pandas Dataframe

我有一个很大的DataFrame，我想将它分成一个测试集和一个用于模型构建的训练集。但是，我不想复制DataFrame，因为我已达到内存限制。是否有类似于pop但对于大段的操作，它会同时删除DataFrame的一部分并允许我将其分配给新的DataFrame？像这样:#AssumeIhaveinitializedaDataFrame(called"all")whichcontainsmylargedataset,#withabooleancolumncalled"test"whichindicateswhetherarecordshouldbeusedfor#testing.printl

Dataframe 大型 code section python pandas

python - 值错误 : Must pass DataFrame with boolean values only

问题在此数据文件中，美国使用“REGION”列分为四个区域。创建一个查询，查找属于区域1或2、名称以“华盛顿”开头且POPESTIMATE2015大于其POPESTIMATE2014的县。此函数应返回一个5x2DataFrame，其列=['STNAME','CTYNAME']并且索引ID与census_df相同(按索引升序排列)。代码defanswer_eight():counties=census_df[census_df['SUMLEV']==50]regions=counties[(counties[counties['REGION']==1])|(counties[counti

DataFrame boolean 39 washingtons counties python database pandas data-science

88 89 909192 93 94