sample_dataframe

python - 重采样多索引 DataFrame

我要resampleaDataFrame具有包含日期时间列和其他一些键的多索引。数据框看起来像:importpandasaspdfromStringIOimportStringIOcsv=StringIO("""ID,NAME,DATE,VAR11,a,03-JAN-2013,691,a,04-JAN-2013,771,a,05-JAN-2013,752,b,03-JAN-2013,692,b,04-JAN-2013,752,b,05-JAN-2013,72""")df=pd.read_csv(csv,index_col=['DATE','ID'],parse_dates=['DA

多索 DataFrame 39 pandas code python

python - Pandas Dataframe CSV 导出，如何防止额外的双引号字符

我正在使用Pandas处理和输出在Wordpress中发布的表格的数据我正在添加HTML代码来格式化颜色一列从示例Dataframe开始:importnumpyasnpimportpandasaspddf=pd.DataFrame({'A':['group1','group2','group3'],'B':['foo','foo','foo']})打印dfAB0group1foo1group2foo2group3foo然后我将相同的格式代码添加到每一行，如下所示:df['Status']='Active'printdfABStatus0group1fooActive1group2foo

引号 Dataframe 39 span code python csv pandas

python Pandas : replace values multiple columns matching multiple columns from another dataframe

我搜索了很多答案，最接近的问题是Compare2columnsof2differentpandasdataframes,ifthesameinsert1intotheotherinPython，但是这个人的特定问题的答案是一个简单的合并，它不能以一般方式回答问题。我有两个大型数据框，df1(通常约1000万行)和df2(约1.3亿行)。我需要根据两个df1列匹配两个df2列，用df2三列的值更新df1三列中的值。df1的顺序必须保持不变，并且只有具有匹配值的行才会更新。这是数据框的样子:df1chrsnpxposa1a211-10020010020GA11-10056010056CG1

multiple columns df1 df code python pandas

python - 基于列的整个 DataFrame 上的 df.unique()

我有一个DataFramedf填充了有重复ID的行和列:IndexIdType0a1A1a2A2b1B3b3B4a1A...当我使用时:uniqueId=df["Id"].unique()我得到一个唯一ID列表。但是，我如何在整个DataFrame上应用此过滤，以使其保留结构但删除重复项(基于“Id”)？最佳答案看来你需要DataFrame.drop_duplicates使用参数subset指定测试重复项的位置:#keepfirstduplicatevaluedf=df.drop_duplicates(subset=['Id']

DataFrame python code section drop_duplicates python-3.x pandas duplicates

python - 将 Pandas DataFrame 转换为 JSON 作为更大数据结构的元素

我一直在我的服务器中使用pandasDataFrame对象，将它们转换为CSV以传输到浏览器，其中表格值使用d3绘制。虽然CSV就其本身而言是文件，但我确实需要的不仅仅是一个二维数据表。如果不出意外，我想返回一些关于数据的元数据。所以我开始摆弄JSON，认为我可以构建一个包含一些元信息和我的DataFrame的字典。例如，就像一个荒谬的简单例子:>>>z=numpy.zeros(10)>>>df=pandas.DataFrame(z)>>>df000102030405060708090>>>result={..."name":"SimpleExample",..."data":df,.

DataFrame python 34 0.0 code json pandas

python - pandas:使用 loc 迭代 DataFrame 索引

我似乎找不到.loc行为背后的原因。我知道它是基于标签的，所以如果我遍历Index对象，下面的最小示例应该可以工作。但事实并非如此。我当然用谷歌搜索了，但我需要已经掌握索引的人的额外解释。importdatetimeimportpandasaspddict_weekday={1:'MON',2:'TUE',3:'WED',4:'THU',5:'FRI',6:'SAT',7:'SUN'}df=pd.DataFrame(pd.date_range(datetime.date(2014,1,1),datetime.date(2014,1,15),freq='D'),columns=['Dat

DataFrame python code 39 Weekday pandas indexing

python - 如何使用 pandas DataFrame 绘图函数为每个子图绘制一个 ylabel

默认情况下，使用子图选项的pandas.DataFrame.plot()似乎并不容易为每个子图绘制一个ylabel。我正在尝试绘制一个pandas数据框，该数据框中的每列都有一个子图。到目前为止不起作用的代码:fig=plt.figure(figsize=(10,10))ax=plt.gca()df.plot(y=vars,ax=ax,subplots=True,layout=(3,1),sharex=True,legend=False,)ax.set_ylabel=['y','x','z']但这根本不会绘制任何标签。最佳答案您

DataFrame python section ylabel 39 pandas matplotlib plot subplot

python - 连续行之间的日期差异 - Pyspark Dataframe

我有一个具有以下结构的表USER_IDTweet_IDDate11001ThuAug0519:11:39+0000201016022MonAug0917:51:19+0000201011041SunAug1911:10:09+0000201029483MonJan1110:51:23+0000201224532FriMay2111:11:11+0000201234374SatJul1003:21:23+0000201334334SunJul1104:53:13+00002013基本上我想做的是有一个PysparkSQL查询，它计算具有相同user_id号的连续记录的日期差异(以秒为单位

Dataframe Pyspark 0000 section 11 python apache-spark pyspark-sql

python - 如何在 DataFrame 的 groupby 中增加行数

我需要计算pandasDataFrame中每个产品的activity_months数。到目前为止，这是我的数据和代码:frompandasimportDataFramefromdatetimeimportdatetimedata=[('product_a','08/31/2013'),('product_b','08/31/2013'),('product_c','08/31/2013'),('product_a','09/30/2013'),('product_b','09/30/2013'),('product_c','09/30/2013'),('product_a','10/3

何在 DataFrame product 39 2014 python pandas

python - 将列表读入 pandas DataFrame 的列

我想将列表加载到pandasDataFrame的列中，但似乎无法简单地做到这一点。这是我想要使用transpose()的示例，但我认为这是不必要的:In[1]:importnumpyasnpIn[2]:importpandasaspdIn[3]:x=np.linspace(0,np.pi,10)In[4]:y=np.sin(x)In[5]:data=pd.DataFrame(data=[x,y]).transpose()In[6]:data.columns=['x','sin(x)']In[7]:dataOut[7]:xsin(x)00.0000000.000000e+0010.349

读入 DataFrame section 01 python list pandas