草庐IT

dataframe

全部标签

python - 如何连接多个 pandas.DataFrames 而不会遇到 MemoryError

我尝试连接三个DataFrame。concat_df=pd.concat([df1,df2,df3])这会导致MemoryError。我该如何解决这个问题?请注意,现有的大多数类似问题都是关于读取大文件时发生的MemoryErrors。我没有那个问题。我已将我的文件读入DataFrames。我只是无法连接这些数据。 最佳答案 问题是,就像在其他答案中看到的那样,是一个内存问题。一个解决方案是将数据存储在磁盘上,然后构建一个唯一的数据框。拥有如此庞大的数据,性能是个问题。csv解决方案非常慢,因为会在文本模式下进行转换。由于使用二进制

python - Pandas 比较引发 TypeError : cannot compare a dtyped [float64] array with a scalar of type [bool]

我的dataFrame具有以下结构:Index:1008entries,Trial1.0toTrial3.84Datacolumns(total5columns):CHUNK_NAME1008non-nullvaluesLAMBDA1008non-nullvaluesBETA1008non-nullvaluesHIT_RATE1008non-nullvaluesAVERAGE_RECIPROCAL_HITRATE1008non-nullvalueschunks=['300_321','322_343','344_365','366_387','388_408','366_408','3

python - Pandas 比较引发 TypeError : cannot compare a dtyped [float64] array with a scalar of type [bool]

我的dataFrame具有以下结构:Index:1008entries,Trial1.0toTrial3.84Datacolumns(total5columns):CHUNK_NAME1008non-nullvaluesLAMBDA1008non-nullvaluesBETA1008non-nullvaluesHIT_RATE1008non-nullvaluesAVERAGE_RECIPROCAL_HITRATE1008non-nullvalueschunks=['300_321','322_343','344_365','366_387','388_408','366_408','3

python - 将函数应用于 Dask : How do you specify the grouped Dataframe as argument in the function? 中的分组数据帧

我有一个按索引(first_name)分组的dask数据帧。importpandasaspdimportnumpyasnpfrommultiprocessingimportcpu_countfromdaskimportdataframeasddfromdask.multiprocessingimportgetfromdask.distributedimportClientNCORES=cpu_count()client=Client()entities=pd.DataFrame({'first_name':['Jake','John','Danae','Beatriz','Jacke'

python - 将函数应用于 Dask : How do you specify the grouped Dataframe as argument in the function? 中的分组数据帧

我有一个按索引(first_name)分组的dask数据帧。importpandasaspdimportnumpyasnpfrommultiprocessingimportcpu_countfromdaskimportdataframeasddfromdask.multiprocessingimportgetfromdask.distributedimportClientNCORES=cpu_count()client=Client()entities=pd.DataFrame({'first_name':['Jake','John','Danae','Beatriz','Jacke'

python - 是否有一种有效的方法来检查列是否具有混合 dtypes?

考虑np.random.seed(0)s1=pd.Series([1,2,'a','b',[1,2,3]])s2=np.random.randn(len(s1))s3=np.random.choice(list('abcd'),len(s1))df=pd.DataFrame({'A':s1,'B':s2,'C':s3})dfABC011.764052a120.400157d2a0.978738c3b2.240893a4[1,2,3]1.867558a“A”列具有混合数据类型。我想提出一种非常快速的方法来确定这一点。它不会像检查type==object那样简单,因为这会将“C”识别为误报

python - 是否有一种有效的方法来检查列是否具有混合 dtypes?

考虑np.random.seed(0)s1=pd.Series([1,2,'a','b',[1,2,3]])s2=np.random.randn(len(s1))s3=np.random.choice(list('abcd'),len(s1))df=pd.DataFrame({'A':s1,'B':s2,'C':s3})dfABC011.764052a120.400157d2a0.978738c3b2.240893a4[1,2,3]1.867558a“A”列具有混合数据类型。我想提出一种非常快速的方法来确定这一点。它不会像检查type==object那样简单,因为这会将“C”识别为误报

python - 如何在 Pandas 中旋转数据框?

这个问题在这里已经有了答案:HowcanIpivotadataframe?(5个回答)关闭4年前。我有一个csv格式的表格,看起来像这样。我想转置表格,以便指标名称列中的值是新列,IndicatorCountryYearValue1Angola200562Angola2005133Angola2005104Angola2005115Angola200551Angola200632Angola200623Angola200674Angola200635Angola20066我希望最终结果是这样的:CountryYear12345Angola200561310115Angola200632

python - 如何在 Pandas 中旋转数据框?

这个问题在这里已经有了答案:HowcanIpivotadataframe?(5个回答)关闭4年前。我有一个csv格式的表格,看起来像这样。我想转置表格,以便指标名称列中的值是新列,IndicatorCountryYearValue1Angola200562Angola2005133Angola2005104Angola2005115Angola200551Angola200632Angola200623Angola200674Angola200635Angola20066我希望最终结果是这样的:CountryYear12345Angola200561310115Angola200632

python - 使用 Sklearn 对 Pandas DataFrame 进行线性回归(IndexError : tuple index out of range)

我是Python新手,正在尝试在pandas数据帧上使用sklearn执行线性回归。这就是我所做的:data=pd.read_csv('xxxx.csv')之后我得到了一个包含两列的DataFrame,我们称它们为“c1”、“c2”。现在我想对(c1,c2)的集合进行线性回归,所以我输入了X=data['c1'].valuesY=data['c2'].valueslinear_model.LinearRegression().fit(X,Y)导致以下错误IndexError:tupleindexoutofrange这里有什么问题?还有,我想知道可视化结果根据结果进行预测?我搜索并浏览了