草庐IT

sample_dataframe

全部标签

python - 将 pandas DataFrame 旋转 90 度

基本上我想将pandasDataFrame旋转90度(顺时针),这样如果它是df:ABCD0536716352它会变成df:65A33B56C27D有没有办法用枢轴或其他方式做到这一点?谢谢! 最佳答案 转置In[1]:df=DataFrame([[5,3,6,7],[6,3,5,2]],index=[0,1],columns=list('ABCD'))In[2]:dfOut[2]:ABCD0536716352In[3]:df.TOut[3]:01A56B33C65D72我猜你真的想要这个In[7]:df.T.reset_index

python - 如何基于部分匹配选择DataFrame列?

今天下午我一直在努力寻找一种方法来选择我的PandasDataFrame中的几列,方法是检查名称(标签?)中特定模式的出现。我一直在为nd.arrays/pd.series寻找类似contains或isin的东西,但没有运气。这让我很沮丧,因为我已经在检查我的DataFrame的列是否出现了特定的字符串模式,如:hp=~(df.target_column.str.contains('some_text')|df.target_column.str.contains('other_text'))df_cln=df[hp]但是,无论我怎么撞脑袋,我都无法将.str.contains()应用

python - AssertionError : invalid dtype determination in get_concat_dtype when concatenating operation on list of Dataframes的解决方法

我有一个Dataframes列表,我正尝试使用连接函数将它们组合起来。dataframe_lists=[df1,df2,df3]result=pd.concat(dataframe_lists,keys=['one','two','three'],ignore_index=True)完整的追溯是:---------------------------------------------------------------------------AssertionErrorTraceback(mostrecentcalllast)in()---->1result=pd.concat(da

python - 删除 pandas.Dataframe 中重复列的快速方法

这个问题在这里已经有了答案:pythonpandasremoveduplicatecolumns(15个答案)关闭7个月前。所以通过使用df_ab=pd.concat([df_a,df_b],axis=1,join='inner')我得到一个如下所示的数据框:AABB05510101661919我想删除它的多列:AB05101619因为df_a和df_b是同一Dataframe的子集,我知道如果列名相同,则所有行都具有相同的值。我有一个可行的解决方案:df_ab=df_ab.T.drop_duplicates().T但是我有很多行,所以这一行非常慢。有人有更快的解决方案吗?我更喜欢不需

python - 使用 Spark DataFrame 列制作直方图

我正在尝试使用数据框中的列制作直方图,看起来像DataFrame[C0:int,C1:int,...]如果我要用C1列制作直方图,我应该怎么做?我尝试过的一些事情是df.groupBy("C1").count().histogram()df.C1.countByValue()由于数据类型不匹配而不起作用。 最佳答案 pyspark_dist_explore@ChrisvandenBerg提到的包非常好。如果您不想添加额外的依赖项,您可以使用这段代码绘制一个简单的直方图。importmatplotlib.pyplotasplt#Sho

python - 从 pandas DataFrame 中高效扩展行

我是pandas的新手,我正在尝试将一个奇怪的格式文件读入DataFrame。原始文件如下所示:;NoTimeDateMoistAveMatTempTDRConductTDRAveDeltaCounttpAveMoist1Moist2Moist3Moist4TDR1TDR2TDR3TDR4111:38:1711.07.201211.3748.205.1588.8715344.5011.8411.3511.5915.2589.089.089.088.0211:38:1811.07.201211.4448.205.1388.882346.2212.0811.83-1.00-1.0089.0

python - Pandas 面板花式索引 : How to return (index of) all DataFrames in Panel based on Boolean of multiple columns in each df

我有一个Pandas面板,其中包含许多具有相同行/列标签的DataFrame。我想用DataFrames制作一个新面板,满足基于几列的特定条件。这对于数据框和行来说很容易:假设我有一个df,zHe_compare。我可以获得合适的行:zHe_compare[(zHe_compare['zHe_calc']>100)&(zHe_compare['zHe_med']>100)|((zHe_obs_lo_2s但是我该怎么做(伪代码,简化的bool值):good_results_panel=results_panel[all_dataframes[sum('zHe_calc'min_num]]

python - pandas.DataFrame.to_sql 中的最佳 chunksize 参数

使用需要转储到PostgreSQL表中的大型pandasDataFrame。从我读过的内容来看,一次转储不是一个好主意,(我正在锁定数据库)而不是使用chunksize范围。答案here对工作流有帮助,但我只是问影响性能的block大小的值。In[5]:df.shapeOut[5]:(24594591,4)In[6]:df.to_sql('existing_table',con=engine,index=False,if_exists='append',chunksize=10000)是否有推荐的默认值?将参数设置得更高或更低时,性能是否存在差异?假设我有内存来支持更大的block大小

python - 从索引到列级别交换一级(Pandas Multiindex Dataframe)

我有一个多索引的pandas.Dataframe,它是这样的:BAZPALFooBar1241AB2CD1341EF2GH我需要以适当的方式将一级索引与列交换。我需要以这样的方式结束:124134CooBarBAZ1AE2CGPAL1BF2DH 最佳答案 您需要取消堆叠现有索引级别Foo,堆叠所需列“Coo”,然后重新排列索引级别。交换索引级别后,您可能想要对其进行排序。作为最后一步,您可能想要删除所有值的列名称(val)。df=(pd.DataFrame({'Foo':[124,124,134,134]*2,'Bar':[1,2,

python - 在多个条件下合并 DataFrames - 而不是专门针对相等的值

首先,抱歉,如果这有点冗长,但我想完整地描述我遇到的问题以及我已经尝试过的事情。我正在尝试在多个条件下将两个数据框对象连接(合并)在一起。如果要满足的条件都是“等于”运算符,我知道如何执行此操作,但是,我需要使用LESSTHAN和MORETHAN。数据框表示遗传信息:一个是基因组中的突变列表(称为SNP),另一个提供有关基因在人类基因组中的位置的信息。对这些执行df.head()返回以下内容:SNP数据帧(snp_df):chromosomeSNPBP01rs309431575256611rs313197275272121rs207381475347431rs3115859754503