sample_dataframe

python - 如何在不复制的情况下从单个 1D Numpy 数组构造 Pandas DataFrame

与我能找到的所有其他问题不同，我不想从同类Numpy数组创建DataFrame，也不想将结构化数组转换为DataFrame。我想要的是从每个列的单独一维Numpy数组创建一个DataFrame。我尝试了明显的DataFrame({"col":nparray,"col":nparray})，但这显示在我个人资料的顶部，所以它一定是在做一些非常慢的事情。据我了解，PandasDataFrames是用纯Python实现的，其中每一列都由一个Numpy数组支持，所以我认为有一种有效的方法可以做到这一点。我实际上想做的是从Cython有效地填充DataFrame。Cython具有允许高效访问Nu

何在不复 DataFrame code data python pandas numpy cython

python - Pandas 应用于 dataframe 产生 '<built-in method values of ...'

我正在尝试构建一个GeoJSONobject.我的输入是一个包含地址列、纬度列和经度列的csv。然后，我从坐标中创建了Shapely点，将它们缓冲给定半径，并通过映射选项获取坐标字典-到目前为止，一切顺利。然后，引用thisquestion之后，我编写了以下函数来获取一系列词典:defmake_geojson(row):return{'geometry':row['geom'],'properties':{'address':row['address']}}我这样应用它:data['new_output']=data.apply(make_geojson,axis=1)我的结果列中充满

amp dataframe 39 data code python pandas apply geojson shapely

python - 在 Seaborn FacetGrid 中绘制多个 DataFrame 列

我正在使用下面的代码importseabornassnsg=sns.FacetGrid(dataframe,col='A',hue='A')g.map(plt.plot,'X','Y1')plt.show()制作这样的seaborn切面图:现在我想在这个图中添加另一行，在y轴上使用不同的变量，称之为Y2。结果应该类似于垂直堆叠由获得的两个图g=sns.FacetGrid(dataframe,col='A',hue='A')g.map(plt.plot,'X','Y1')plt.show()g=sns.FacetGrid(dataframe,col='A',hue='A')g.map(p

FacetGrid DataFrame 39 code python pandas matplotlib plot seaborn

python - 从一天的开始按 n 天对 Pandas DataFrame 进行分组

我刚刚发现了Pandas的强大功能，我喜欢它，但我无法弄清楚这个问题:我有一个DataFramedf.head():lonlathfilenametime019.96121680.617627-0.077165600482002-05-1512:59:31.717467119.92391680.614847-0.018689600482002-05-1512:59:31.831467219.84939680.609257-0.089205600482002-05-1512:59:32.059467319.83077680.6078570.076485600482002-05-1512:

DataFrame python 2002 code 60048 pandas

python - 将 pandas DataFrame 列添加到行的最佳方法

这个问题在这里已经有了答案:Meltingapandasdataframe(4个答案)Stackingdataframecolumns(Pandas)(1个回答)关闭4年前。我必须找到使用现有DataFrame创建新DataFrame的最佳方法。查看此链接以获得完整代码:jdoodle.com/a/xKP我有这种数据框:df=pd.DataFrame({'length':[112,214,52,88],'views':[10000,50000,25000,5000],'click':[55,64,85,9]},index=['id1','id2','id3','id4'])clickl

DataFrame python section 39 stat pandas reshape

python - 以字符串元组作为索引的 Pandas DataFrame

我在这里感觉到一些奇怪的pandas行为。我有一个看起来像的数据框df=pd.DataFrame(columns=['Col1','Col2','Col3'],index=[('1','a'),('2','a'),('1','b'),('2','b')])In[14]:dfOut[14]:Col1Col2Col3(1,a)NaNNaNNaN(2,a)NaNNaNNaN(1,b)NaNNaNNaN(2,b)NaNNaNNaN我可以设置任意元素的值In[15]:df['Col2'].loc[('1','b')]=6In[16]:dfOut[16]:Col1Col2Col3(1,a)NaNN

DataFrame python 39 NaN Col pandas indexing

Python:在多张纸上将 pandas DataFrame 写入 Excel 的最快方法

我需要将24个pandas数据框(140列x400行)导出到Excel，每个都导出到不同的工作表中。我正在使用pandas的内置ExcelWriter。运行24个场景，需要:51秒写入.xls文件(使用xlwt)86秒写入.xlsx文件(使用XlsxWriter)141秒写入.xlsm文件(使用openpyxl)仅运行程序需要21秒(无Excel输出)写入.xls的问题是电子表格不包含格式样式，因此如果我在Excel中打开它，选择一列，然后单击“逗号”按钮来格式化数字，它告诉我:“找不到样式逗号”。我在写入.xlsx时没有遇到这个问题，但这样更慢。关于如何使导出更快的任何建议？我不可能

多张 DataFrame code strong section python excel pandas export output

python - Pandas DataFrame 搜索是线性时间还是常数时间？

我有一个超过15000行的数据框对象df，例如:anime_idnamegenrerating1234KiminonawaRomance,Comedy9.315678Stiens;GateSci-fi8.92我正在尝试查找具有特定anime_id的行。a_id="5678"temp=(df.query("anime_id=="+a_id).genre)我只是想知道这个搜索是在常数时间(如字典)还是线性时间(如列表)中完成的。最佳答案这是一个非常有趣的问题!我觉得取决于以下几个方面:按索引访问单行(索引已排序且唯一)应该有运行时O

DataFrame python code strong timeit pandas search time-complexity

python - 将 pandas groupby 结果合并回 DataFrame

我有一个看起来像这样的DataFrame...idnvalue0ID1251ID1302ID2303ID250我想在此框架中添加另一列，即按“idn”分组的最大“值”我想要这样的结果。idnvaluemax_val0ID125301ID130302ID230503ID25050我可以像这样使用组来提取“值”的最大值...df[['idn','value']].groupby('idn')['value'].max()但是，我无法将该结果合并回原始DataFrame。获得预期结果的最佳方法是什么？谢谢最佳答案对groupby对象使

DataFrame groupby section code 39 python pandas

python - 对 pandas DataFrame 进行就地行操作

假设我有这个:>>>x=pandas.DataFrame([[1.0,2.0,3.0],[3,4,5]],columns=["A","B","C"])>>>printxABC01231345现在我想按行规范化x---也就是说，将每一行除以其总和。如thisquestion中所述，这可以通过x=x.div(x.sum(axis=1),axis=0)来实现。但是，这会创建一个新DataFrame。如果我的DataFrame很大，即使我立即将其分配给原始名称，创建这个新DataFrame也会消耗大量内存。是否有一种有效的方法来执行此操作？我想要类似x.idiv()的东西，它提供div的axi

就地 DataFrame code section python pandas

28 29 303132 33 34