sample_dataframe

python - Pandas:将行附加到列中具有多索引的DataFrame

我有一个在列中带有多索引的DataFrame，我想使用字典来追加新行。假设DataFrame中的每一行都是一个城市。列包含“距离”和“车辆”。每个单元格都是在这段距离内选择这辆车的人口百分比。我正在构建这样的索引:index_tuples=[]fordistancein["near","far"]:forvehiclein["bike","car"]:index_tuples.append([distance,vehicle])index=pd.MultiIndex.from_tuples(index_tuples,names=["distance","vehicle"])然后我正在创

python - key 错误 : <class 'pandas._libs.tslibs.timestamps.Timestamp' > when saving dataframe to excel

早上好，我已经使用python大约一年半了，我发现自己面临着一个我无法解决的基本问题。我有一个简单的数据框(df)，不大(大约12k行和10列)，其中包括一列是“datetime64[ns]”格式，一列是“float64”，其他都是“对象”。我调试了，可以说错误来自datetime列。当我将此df保存到Excel时，我收到以下消息:File"test.py",line16,intest.to_excel(writer,'test')File"C:\Users\renaud.viot\AppData\Local\Programs\Python\Python36\lib\site-pack

python - 使用索引编辑 pandas DataFrame

是否有一种通用、有效的方法来为pandas中的DataFrame的子集赋值？我有数百行和列可以直接访问，但我还没有弄清楚如何在不遍历每一行的情况下编辑它们的值，列对。例如:In[1]:importpandas,numpyIn[2]:array=numpy.arange(30).reshape(3,10)In[3]:df=pandas.DataFrame(array,index=list("ABC"))In[4]:dfOut[4]:0123456789A0123456789B10111213141516171819C20212223242526272829In[5]:rows=['A',

python - 切片 pandas DataFrame，其中列值存在于另一个数组中

我有一个包含大量数据的pandas.DataFrame。一列中是随机重复的键。在另一个数组中，我有一个他们的键列表，我想从DataFrame中切出这些键以及来自他们行中其他列的数据。键:keys=numpy.array([1,5,7])数据:indxabcd0525.042.1131231.713.212916.50.293743.111.0104111.231.6105515.62.8116714.219.04如果a列中的值与keys中的值相匹配，我想从DataFrame中切片所有行。期望的结果:indxabcd0525.042.1133743.111.0104111.231.610

python - 强制 .ix 返回 pandas 中的 DataFrame

当我将.ix与DataFrame一起使用时，有什么方法可以强制pandas始终返回DataFrame？例如，如果我运行以下行，importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.arange(6).reshape(3,2),index=[0,0,1])x=df.ix[0]y=df.ix[1]那么x就是一个DataFrame，因为0在索引中出现了两次，y就是一个Series，因为1在索引中是唯一的。我也希望y成为DataFrame(因为我在结果上使用的是iterrows()，它不是为Series定义的)。我可以检查.ix返回的任何类型，并在

python - Groupby 所选 DataFrame 列的值的给定百分位数

假设我有一个DataFrame，其中的列仅包含实数值。>>dfcol1col2col300.907609824.20799113.74365915236.48884222.3586963245.09259230.00679300.000000419.319746119697.405685我想按所选列(例如col1)的四分位数(或我指定的任何其他百分位数)对其进行分组，以对这些组执行一些操作。理想情况下，我想做类似的事情:df.groupy(quartiles_of_col1).mean()#notworking,howtocodequartiles_of_col1?输出应给出对应于co

python - 使用 map : A value is trying to be set on a copy of a slice from a DataFrame 时的 Pandas 警告

我有以下代码并且可以正常工作。这基本上重命名了列中的值，以便以后可以合并它们。pop=pd.read_csv('population.csv')pop_recent=pop[pop['Year']==2014]mapping={'Korea,Rep.':'SouthKorea','Taiwan,China':'Taiwan'}f=lambdax:mapping.get(x,x)pop_recent['CountryName']=pop_recent['CountryName'].map(f)Warning:Avalueistryingtobesetonacopyofaslicefrom

python - Pandas DataFrame 中每月平均每日记录数

我有一个带有TIMESTAMP列的pandasDataFrame，它是datetime64数据类型。请记住，最初此列未设置为索引；索引只是常规整数，前几行如下所示:TIMESTAMPTYPE02014-07-2511:50:30.640212014-07-2511:50:46.160322014-07-2511:50:57.3702每天有任意条记录，也可能有几天没有数据。我想要获取的是每月平均每日记录数，然后将其绘制为一个条形图，x轴为月份(2014年4月、2014年5月...等)。我设法使用下面的代码计算了这些值dfWIM.index=dfWIM.TIMESTAMPforiinran

python - Pandas DataFrame 应用() ValueError : too many values to unpack (expected 2)

我刚开始接触Python，虽然我很兴奋，但似乎我离Python思维还很远。这是一个方法示例，其中到处都是“次优”一词。虽然这对于我相对较小的数据集来说已经足够了，但我想知道如何才能更好地编写它？importpandasaspdfrompandasimportDataFrame#createsamplelogdataframelg=pd.DataFrame(['Accessviolationataddress00A97...','Trytoeditthesplinesorchange...','Accessviolationataddress00F2B...','Pleasemakesu

python - PySpark DataFrame 无法删除重复项

您好，我创建了一个spark数据框，我正在尝试删除重复项:df.drop_duplicates(subset='id')我收到以下错误:Py4JError:Anerroroccurredwhilecallingz:org.apache.spark.api.python.PythonUtils.toSeq.Trace:py4j.Py4JException:MethodtoSeq([classjava.lang.String])doesnotexistatpy4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:335