草庐IT

dataframe

全部标签

python - Pandas 根据多个条件过滤行

我在risk列中有一些值既不是Small、Medium也不是High。我想删除值不是Small、Medium和High的行。我尝试了以下方法:df=df[(df.risk=="Small")|(df.risk=="Medium")|(df.risk=="High")]但这会返回一个空的DataFrame。如何正确过滤它们? 最佳答案 我想你想要:df=df[(df.risk.isin(["Small","Medium","High"]))]例子:In[5]:importpandasaspddf=pd.DataFrame({'risk

python - Pandas DataFrame 对象继承还是对象使用?

我正在构建一个用于处理非常具体的结构化数据的库,并且我正在Pandas之上构建我的基础设施。目前我正在为不同的用例编写一堆不同的数据容器,例如用于国家x时间数据的CTMatrix等,以容纳适用于所有CountryxTime结构化数据的方法。我目前正在争论选项1:对象继承classCTMatrix(pd.DataFrame):methodsetc.here或选项2:对象使用classCTMatrix(object):_data=pd.DataFramethenusegetter,settermethodstocontrolaccessto_dataetc.从软件工程的角度来看,这里有明显

python - 更改 Pandas Dataframe 中的时间频率

我有一个如下所示的PandasDataFrame。dfABdate_time2014-07-0106:03:59.61400062.1250NaN2014-07-0106:03:59.69200062.2500NaN2014-07-0106:13:34.52400062.2500241.06252014-07-0106:13:34.60200062.2500241.50002014-07-0106:15:05.39900062.2500241.37502014-07-0106:15:05.39900062.2500241.25002014-07-0106:15:42.00400062.

python - 有条件地删除重复项 pandas python

有没有办法在大约10列和400,000行的pandas数据框中有条件地删除重复项(专门使用drop_duplicates)?也就是说,我想保留所有具有2列的行满足一个条件:如果日期(列)和存储(列)#的组合是唯一的,则保留行,否则删除。 最佳答案 使用drop_duplicates返回删除了重复行的数据框,可选择只考虑某些列让初始数据框像In[34]:dfOut[34]:Col1Col2Col30AB101AB202AC203CB204AB20如果您想从某些列'Col1','Col2'中获取独特的组合In[35]:df.drop_d

python Pandas : Add column to grouped DataFrame with method chaining

首先让我说我是pandas的新手。我正在尝试在DataFrame中创建一个新列。我能够按照我的示例中所示执行此操作。但我想通过链接方法来做到这一点,所以我不必分配新变量。首先让我展示一下我想要实现的目标,以及到目前为止我做了什么:In[1]:importnumpyasnpfrompandasimportSeries,DataFrameimportpandasaspdIn[2]:np.random.seed(10)df=pd.DataFrame(np.random.randint(1,5,size=(10,3)),columns=list('ABC'))dfOut[2]:ABC22141

python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks notebook 中的 sql 表

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据框:dataframe=sqlContext.sql("select*frommy_data_table")如何将其转换回可以运行sql查询的sparksql表? 最佳答案 您可以使用createReplaceTempView创建表格.在你的情况下它会是这样的:dataframe.createOrReplaceTempView("mytable")在此之后,您可以使用SQL查询您的mytable。如果你的spark版本是≤1.6.2你可以使

python - 在 Pandas 中就地合并两个数据框

如何在pandas中就地合并两个数据框?例如,假设我们有这两个数据框:importpandasaspds1=pd.DataFrame({'time':[1234567000,1234567005,1234567009],'X1':[96.32,96.01,96.05]},columns=['time','X1'])#tokeepcolumnsorders2=pd.DataFrame({'time':[1234567001,1234567005],'X2':[23.88,23.96]},columns=['time','X2'])#tokeepcolumnsorder它们可以与panda

python - 将 dict 构造函数转换为 Pandas MultiIndex 数据框

我有很多数据想在Pandas数据框中构建。但是,为此我需要一个多索引格式。PandasMultiIndex功能一直让我感到困惑,而且这次我无法理解它。我按照自己的意愿构建了结构,但由于我的实际数据要大得多,所以我想改用Pandas。下面的代码是dict变体。请注意,原始数据有更多的标签和更多的行。想法是,原始数据包含索引为Task_n的任务的行,该任务已由索引为Participant_n的参与者执行。每行是一个段。即使原始数据没有这种区别,我也想将其添加到我的数据框中。换句话说:Participant_n|Task_n|val|dur--------------------------

python - 如何从 Pandas 中的另一列中减去字符串类型列的值

我有一个这样的数据框dfcol1col2col3AblackberryblackBgreenapplegreenCredwinered我想从col2值中减去col3值,结果看起来像df1col1col2col3AberryblackBapplegreenCwinered如何使用pandas有效地做到这一点 最佳答案 将listcomprehension与replace和split结合使用:df['col2']=[a.replace(b,'').strip()fora,binzip(df['col2'],df['col3'])]pri

python - 试图在 DataFrame 的切片副本上设置一个值

我有一个dataframe列period,它的值按季度(Q1、Q2、Q3、Q4)我想转换成相关的月份(见字典)。我的下面的代码有效,但想知道为什么我会收到此警告。试图在DataFrame的切片副本上设置一个值。尝试使用.loc[row_indexer,col_indexer]=value代替quarter={"Q1":"Mar","Q2":"Jun","Q3":"Sep","Q4":"Dec"}df['period']=df['period'].astype(str).map(quarter) 最佳答案 “试图在DataFrame的