dataframe

python - Pandas 根据多个条件过滤行

我在risk列中有一些值既不是Small、Medium也不是High。我想删除值不是Small、Medium和High的行。我尝试了以下方法:df=df[(df.risk=="Small")|(df.risk=="Medium")|(df.risk=="High")]但这会返回一个空的DataFrame。如何正确过滤它们？最佳答案我想你想要:df=df[(df.risk.isin(["Small","Medium","High"]))]例子:In[5]:importpandasaspddf=pd.DataFrame({'risk

python - Pandas DataFrame 对象继承还是对象使用？

我正在构建一个用于处理非常具体的结构化数据的库，并且我正在Pandas之上构建我的基础设施。目前我正在为不同的用例编写一堆不同的数据容器，例如用于国家x时间数据的CTMatrix等，以容纳适用于所有CountryxTime结构化数据的方法。我目前正在争论选项1:对象继承classCTMatrix(pd.DataFrame):methodsetc.here或选项2:对象使用classCTMatrix(object):_data=pd.DataFramethenusegetter,settermethodstocontrolaccessto_dataetc.从软件工程的角度来看，这里有明显

DataFrame python code strong section oop inheritance pandas

python - 更改 Pandas Dataframe 中的时间频率

我有一个如下所示的PandasDataFrame。dfABdate_time2014-07-0106:03:59.61400062.1250NaN2014-07-0106:03:59.69200062.2500NaN2014-07-0106:13:34.52400062.2500241.06252014-07-0106:13:34.60200062.2500241.50002014-07-0106:15:05.39900062.2500241.37502014-07-0106:15:05.39900062.2500241.25002014-07-0106:15:42.00400062.

Dataframe python 2014 NaN code pandas time-series time-frequency

python - 有条件地删除重复项 pandas python

有没有办法在大约10列和400,000行的pandas数据框中有条件地删除重复项(专门使用drop_duplicates)？也就是说，我想保留所有具有2列的行满足一个条件:如果日期(列)和存储(列)#的组合是唯一的，则保留行，否则删除。最佳答案使用drop_duplicates返回删除了重复行的数据框，可选择只考虑某些列让初始数据框像In[34]:dfOut[34]:Col1Col2Col30AB101AB202AC203CB204AB20如果您想从某些列'Col1','Col2'中获取独特的组合In[35]:df.drop_d

python pandas section Col code python-2.7 numpy dataframe

python Pandas : Add column to grouped DataFrame with method chaining

首先让我说我是pandas的新手。我正在尝试在DataFrame中创建一个新列。我能够按照我的示例中所示执行此操作。但我想通过链接方法来做到这一点，所以我不必分配新变量。首先让我展示一下我想要实现的目标，以及到目前为止我做了什么:In[1]:importnumpyasnpfrompandasimportSeries,DataFrameimportpandasaspdIn[2]:np.random.seed(10)df=pd.DataFrame(np.random.randint(1,5,size=(10,3)),columns=list('ABC'))dfOut[2]:ABC22141

DataFrame chaining code pandas section python python-2.7

python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks notebook 中的 sql 表

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据框:dataframe=sqlContext.sql("select*frommy_data_table")如何将其转换回可以运行sql查询的sparksql表？最佳答案您可以使用createReplaceTempView创建表格.在你的情况下它会是这样的:dataframe.createOrReplaceTempView("mytable")在此之后，您可以使用SQL查询您的mytable。如果你的spark版本是≤1.6.2你可以使

databricks dataframe section pyspark code python sql apache-spark

python - 在 Pandas 中就地合并两个数据框

如何在pandas中就地合并两个数据框？例如，假设我们有这两个数据框:importpandasaspds1=pd.DataFrame({'time':[1234567000,1234567005,1234567009],'X1':[96.32,96.01,96.05]},columns=['time','X1'])#tokeepcolumnsorders2=pd.DataFrame({'time':[1234567001,1234567005],'X2':[23.88,23.96]},columns=['time','X2'])#tokeepcolumnsorder它们可以与panda

就地 python pandas merge section dataframe outer-join

python - 将 dict 构造函数转换为 Pandas MultiIndex 数据框

我有很多数据想在Pandas数据框中构建。但是，为此我需要一个多索引格式。PandasMultiIndex功能一直让我感到困惑，而且这次我无法理解它。我按照自己的意愿构建了结构，但由于我的实际数据要大得多，所以我想改用Pandas。下面的代码是dict变体。请注意，原始数据有更多的标签和更多的行。想法是，原始数据包含索引为Task_n的任务的行，该任务已由索引为Participant_n的参与者执行。每行是一个段。即使原始数据没有这种区别，我也想将其添加到我的数据框中。换句话说:Participant_n|Task_n|val|dur--------------------------

MultiIndex python 39 dur val python-3.x pandas dictionary dataframe

python - 如何从 Pandas 中的另一列中减去字符串类型列的值

我有一个这样的数据框dfcol1col2col3AblackberryblackBgreenapplegreenCredwinered我想从col2值中减去col3值，结果看起来像df1col1col2col3AberryblackBapplegreenCwinered如何使用pandas有效地做到这一点最佳答案将listcomprehension与replace和split结合使用:df['col2']=[a.replace(b,'').strip()fora,binzip(df['col2'],df['col3'])]pri

python Pandas 39 col code dataframe

python - 试图在 DataFrame 的切片副本上设置一个值

我有一个dataframe列period，它的值按季度(Q1、Q2、Q3、Q4)我想转换成相关的月份(见字典)。我的下面的代码有效，但想知道为什么我会收到此警告。试图在DataFrame的切片副本上设置一个值。尝试使用.loc[row_indexer,col_indexer]=value代替quarter={"Q1":"Mar","Q2":"Jun","Q3":"Sep","Q4":"Dec"}df['period']=df['period'].astype(str).map(quarter) 最佳答案 “试图在DataFrame的

DataFrame python 34 39 period dictionary pandas

32 33 343536 37 38