sample_dataframe

python - pandas dataframe.to_html() 上的分页

我有一个巨大的Pandas数据框，我正在将其转换为html表，即dataframe.to_html()，它大约有1000行。使用分页的任何简单方法，这样我就不必滚动整个1000行。比如，查看前50行，然后单击下一步以查看后续50行？最佳答案 2022年更新现在似乎有一个简单而现代的解决方案，使用itables.安装:pipinstallitables基本用法(来自GitHub自述文件):fromitablesimportshowshow(df)结果:默认情况下，还有一个命令可以像这样显示笔记本中的所有表格。原始答案(将表格导出到H

python - 如何使用 Pandas DataFrame 对数据库表的现有行执行更新？

我正在尝试查询MySql数据库表的一个子集，将结果提供给PandasDataFrame，更改一些数据，然后将更新的行写回同一个表。我的表大小约为1MM行，我要更改的行数将相对较小(df.to_sql(tablename,engine,if_exists='replace')不是一个可行的选择。是否有一种直接的方法来更新已更改的行，而无需遍历DataFrame中的每一行？我知道这个项目试图模拟“upsert”工作流程，但它似乎只完成了插入新的非重复行的任务，而不是更新现有行的部分内容:GitHubPandas-to_sql-upsert这是我试图在更大范围内完成的工作的框架:import

python - 从受密码保护的 Excel 文件到 pandas DataFrame

我可以用这个打开受密码保护的Excel文件:importsysimportwin32com.clientxlApp=win32com.client.Dispatch("Excel.Application")print"Excellibraryversion:",xlApp.Versionfilename,password=sys.argv[1:3]xlwb=xlApp.Workbooks.Open(filename,Password=password)#xlwb=xlApp.Workbooks.Open(filename)xlws=xlwb.Sheets(1)#countsfrom1,

python - Pandas DataFrame.merge 内存错误

目标我的目标是通过它们的公共(public)列(基因名称)合并两个DataFrame，这样我就可以对每个基因行的每个基因得分进行乘积。然后，我会对患者和细胞执行groupby并对每个细胞的所有分数求和。最终的数据框应该是这样的:patientcellPat_122RV112DU14515LN189Pat_222RV112DU14515LN189Pat_322RV112DU14515LN189最后一部分应该可以正常工作，但由于MemoryError，我无法对基因名称执行第一次合并。以下是每个DataFrame的片段。数据细胞=DescriptionNamelevel_200LOC1000

python /R : generate dataframe from XML when not all nodes contain all variables?

考虑以下XML示例library(xml2)myxmlJohntennisgolfpythonRobertR')在这里，我想从此XML中获取一个(R或Pandas)数据框，其中包含列name和hobby。但是，如您所见，存在对齐问题，因为第二个节点中缺少hobby，而John有两个爱好。在R中，我知道如何一次提取一个特定值，例如使用xml2如下:myxml%>%xml_find_all("//name")%>%xml_text()myxml%>%xml_find_all("//hobby")%>%xml_text()但是我怎样才能在数据框中正确对齐这些数据呢？也就是说，我如何获得如下数

python - scikit随机森林sample_weights的使用

我一直在尝试弄清楚scikit的随机森林sample_weight的用途，但我无法解释我看到的一些结果。从根本上说，我需要它来平衡分类问题与不平衡类。特别是，如果我使用全1的sample_weights数组，我会得到与wsample_weights=None相同的结果。此外，我正在考虑任何权重相等的数组(即全1、全10或全0.8……)都会提供相同的结果。在这种情况下，也许我对权重的直觉是错误的。代码如下:importnumpyasnpfromsklearnimportensemble,metrics,cross_validation,datasets#createasyntheticd

python - 检查 dataframe 是否为 bool 类型 pandas

我有一个pandasDataFrame如下:In[108]:df1Out[108]:vt2014-02-2110:30:43False2014-02-2110:31:34False2014-02-2110:32:25False2014-02-2110:33:17False2014-02-2110:34:09False2014-02-2110:35:00False2014-02-2110:35:51False我需要检查此数据帧的dtype是否为bool。我试过:In[109]:printisinstance(df1,bool)False**它应该返回**True****我该怎么做？引用:

使用 SQLAlchemy 从 Pandas Dataframe 创建 Python MS Access 数据库表

我正在尝试从Python创建一个MSAccess数据库，并且想知道是否可以直接从pandas数据框创建一个表。我知道我可以使用pandasdataframe.to_sql()函数将数据帧成功写入SQLite数据库，或者通过使用sqlalchemy引擎来处理其他一些数据库格式(但不幸的是不能Access)，但我不能不要让所有零件组合在一起。这是我一直在测试的代码片段:importpandasaspdimportsqlalchemyimportpypyodbc#Usedtoactuallycreatethe.mdbfileimportpyodbc#Connectionfunctiontou

python - Pandas Dataframe 上的滑动窗口

我有一个包含时间序列数据的Pandas数据框。我目前正在操纵这个数据框来创建一个新的、更小的数据框，它是每10行的滚动平均值。即滚动窗口技术。像这样:defcreate_new_df(df):features=[]x=df['X'].astype(float)i=x.index.valuestime_sequence=[i]*10idx=np.array(time_sequence).T.flatten()[:len(x)]x=x.groupby(idx).mean()x.name='X'features.append(x)new_df=pd.concat(features,axis=

python - 将函数应用于 pandas dataframe groupby 中的第二列

在pandas数据框中，可以使用函数对其索引进行分组。我希望定义一个应用于列的函数。我希望按两列分组，但我需要按任意函数foo对第二列进行分组:group_sum=df.groupby(['name',foo])['tickets'].sum()如何定义foo以将第二列分为两组，例如，根据值是否为>0来划分？或者，是否使用了完全不同的方法或语法？最佳答案 Groupby可以接受标签和系列/数组的任意组合(只要数组的长度与数据框的长度相同)，因此您可以将函数映射到您的列并将其传递到groupby，例如df.groupby(['nam