pandas_草庐IT

python - 从 Pandas 写入 Excel 时设置默认数字格式

我希望在从Pandas数据框写入Excel时设置默认数字格式。这可能吗？我可以使用以下设置默认日期/datetime_format，但找不到设置默认数字格式的方法。writer=pd.ExcelWriter(f'{file_variable}.xlsx',engine='xlsxwriter',datetime_format='MM/DD/YYYY')否则，我假设我必须将工作表分配给变量并循环遍历指定列的行以设置数字格式。最佳答案我得到了这种格式，float到小数点后一位。data={'APrime':{0:3.26,1:3.2

python Pandas 39 Alpha Bravo python-3.x openpyxl xlsxwriter

python - 在 Pandas 中使用 SQLAlchemy 清理数据库连接

使用Pandas，我可以非常轻松地将数据从数据库读取到数据框中:fromsqlalchemyimportcreate_engineimportpandasquery='SELECT*FROMTable_Name;'engine=create_engine('...')df=pandas.read_sql_query(query,engine)print(df.head())我想确保在执行.read_sql_query()后没有连接保持打开状态，无论查询是否成功或是否引发异常。我现在:使用函数来限制引擎的范围。我只希望每半小时调用一次此函数，因此我不介意重新创建引擎，如果这有助于确保所有

SQLAlchemy python code engine query pandas

python - 如果超过特定数量的 NA 值，则删除一列

我想编写一个程序，如果它超过特定数量的NA值，则删除一列。这就是我所做的。defcheck(x):forcolumnindf:ifdf.column.isnull().sum()>2:df.drop(column,axis=1)执行上面的代码没有错误，但是在执行df.apply(check)时，出现了很多错误。P.S:我知道df.dropna(thresh,axis)中的thresh争论有什么提示吗？为什么我的代码不起作用？谢谢最佳答案尽管jezrael的回答有效，但这不是您应该采用的方法。相反，创建一个掩码:~df.isnul

python NA code 39 section python-3.x pandas dataframe data-analysis

python - 如何以半小时为间隔划分 Pandas 日期时间列

我有如下所示的Pandas数据框datevalue2018-02-1217:30:00232018-02-1217:34:00452018-02-1217:36:00232018-02-1217:45:00562018-02-1218:37:0054所需的Pandas数据框datevaluehalf_hourly_bucket2018-02-1217:30:002317:30-17:592018-02-1217:34:004517:30-17:592018-02-1217:36:002317:30-17:592018-02-1217:45:005617:30-17:592018-02-

何以 python 2018 code 17 pandas

python - 如何舍入 Pandas 数据框中的日期时间索引？

有一个像这样的pandas数据框:index2018-06-0102:50:00R45.48-2.82018-06-0107:13:00R45.85-2.0...2018-06-0108:37:00R45.87-2.7我想像这样将索引四舍五入到小时:index2018-06-0102:00:00R45.48-2.82018-06-0107:00:00R45.85-2.0...2018-06-0108:00:00R45.87-2.7我正在尝试以下代码:df=df.date_time.apply(lambdax:x.round('H'))但返回一个系列而不是具有修改索引列的数据框

python Pandas 2018 01 code datetime dataframe

python - 将数字序列折叠成范围

今天，我正在请求有关我正在编写的Python脚本的帮助；我正在使用CSV模块来解析一个包含大约1,100行的大型文档，并且它从每一行中提取一个Case_ID，这是一个其他行没有的唯一编号。例如:['10215','10216','10277','10278','10279','10280','10281','10282','10292','10293','10295','10296','10297','10298','10299','10300','10301','10302','10303','10304','10305','10306','10307','10308','10309

python 将 39 section code python-3.x pandas

python - Pandas +群

数据集包含4列，其中name是child的名字，yearofbirth表示child出生的年份，number表示以该特定名字命名的婴儿的数量。Forexample,entry1reads,intheyear1880,7065girlchildrenwerenamedMary.通过pandas，我试图找出每年哪个名字是最常用的。我的代码df.groupby(['yearofbirth']).agg({'number':'max'}).reset_index()以上代码部分回答了手头的问题。我想要名称和最大数量。最佳答案基于this

python Pandas section yearofbirth noreferrer pandas-groupby data-analysis

python - 通过 np.char.find 比较 pandas 数据帧的两列给出 TypeError : string operation on non-string array

我想比较两个系列的字符串，看看一个是否包含另一个元素。我首先尝试使用apply，但它很慢:cols=['s1','s2']list_of_series=[pd.Series(['one','sdf'],index=cols),pd.Series(['two','xytwo'],index=cols)]df=pd.DataFrame(list_of_series,columns=cols)dfs1s20onesdf1twoxytwodf.apply(lambdarow:row['s1']inrow['s2'],axis=1)0False1Truedtype:bool它似乎适用于以下代码:

string non-string code 39 section python pandas numpy

python - Pandas 到 Excel(合并标题列)

我想将我的df转换为excel工作表，但还想添加一个标题列来对所有列进行分类。用于复制:importpandasaspd#CreateaPandasdataframefromsomedata.df=pd.DataFrame({'Data':[10,20,30,20,15,30,45]})#CreateaPandasExcelwriterusingXlsxWriterastheengine.writer=pd.ExcelWriter('pandas_simple.xlsx',engine='xlsxwriter')#ConvertthedataframetoanXlsxWriterExc

python Pandas 39 code section excel

python - Pandas 日期时间到 unix 时间戳秒

来自pandas.to_datetime的官方文档我们可以说，unit:string,default‘ns’unitofthearg(D,s,ms,us,ns)denotetheunit,whichisanintegerorfloatnumber.Thiswillbebasedofftheorigin.Example,withunit=’ms’andorigin=’unix’(thedefault),thiswouldcalculatethenumberofmillisecondstotheunixepochstart.所以当我这样尝试时，importpandasaspddf=pd.D

python Pandas code datetime 39