草庐IT

df_output_norm

全部标签

python - 基于列的整个 DataFrame 上的 df.unique()

我有一个DataFramedf填充了有重复ID的行和列:IndexIdType0a1A1a2A2b1B3b3B4a1A...当我使用时:uniqueId=df["Id"].unique()我得到一个唯一ID列表。但是,我如何在整个DataFrame上应用此过滤,以使其保留结构但删除重复项(基于“Id”)? 最佳答案 看来你需要DataFrame.drop_duplicates使用参数subset指定测试重复项的位置:#keepfirstduplicatevaluedf=df.drop_duplicates(subset=['Id']

python - check_call check_output 调用和子进程模块中的 Popen 方法之间的实际区别是什么?

老实说,我只是不明白“非零”状态的行话,无法真正解释帮助页面上正在发生的事情或这意味着什么(甚至没有定义)。有哪些使用python调用其他脚本的例子,其中的这些过程subprocess.call子进程.check_output子进程.popen真的不一样吗?您什么时候会使用其中任何一个,这些方法的明确细节是什么?如果我想要简单的操作系统调用,我应该改用os.system吗? 最佳答案 主要区别在于,popen是一个非阻塞函数(意味着您可以继续执行程序而无需等待调用完成),call和check_output正在阻塞。另一个区别在于它们

python - 为什么 df.apply(tuple) 有效但 df.apply(list) 无效?

这是一个数据框:ABC062-51252210313-5284362我可以使用df.apply从原始df中检索一个基本上是列元组的列:out=df.apply(tuple,1)print(out)0(6,2,-5)1(2,5,2)2(10,3,1)3(-5,2,8)4(3,6,2)dtype:object但是如果我想要一个值列表而不是它们的元组,我就做不到,因为它没有给我预期的结果:out=df.apply(list,1)print(out)ABC062-51252210313-5284362相反,我需要做的是:out=pd.Series(df.values.tolist())prin

python - Pandas :对于 df 中的每一行,复制行 N 次,稍作更改

所以我有一个像这样的DataFrame:Nstart1108/01/20149:30:022108/01/201410:30:023208/01/201412:30:024308/01/20144:30:02我需要将每一行复制N次,每次都增加一个小时开始,如下所示:Nstart1108/01/20149:30:022108/01/201410:30:023208/01/201412:30:023208/01/201413:30:024308/01/20144:30:024308/01/20145:30:024308/01/20146:30:02我如何在pandas中做到这一点?

Python 子进程 check_output 比调用慢得多

我试图理解为什么会这样。我正在调用命令以在Ubuntu服务器12.04上重新启动网络。快速执行当我使用以下三种方式之一调用命令时,执行大约需要0.1秒:直接在终端使用os.system的python脚本使用subprocess.call的python脚本终端session:root@ubuntu:~#time/etc/init.d/networkingrestart*Running/etc/init.d/networkingrestart*Reconfiguringnetworkinterfaces...real0m0.105sroot@ubuntu:~#timepython-c"im

Python pandas : Why does df. iloc[ :, :-1]. 我的训练数据的值只选择到倒数第二列?

简单来说,对于同一个训练数据帧df,当我使用X=df.iloc[:,:-1].values,它将选择数据框的倒数第二列而不是最后一列(这是我想要的,但这是一种奇怪的行为我以前从未见过),我知道这是倒数第二列的值和该行的最后一列的值不同。但是,使用y=df.iloc[:,-1].values给我最后一列值的行向量,这正是我想要的。为什么X的负数1反而给我倒数第二列的值? 最佳答案 我认为您在df中只有两列,因为如果有更多列,iloc选择没有最后的所有列:df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],

Python循环遍历Excel工作表,放入一个df

我有一个excel文件foo.xlsx,其中包含大约40张sh1、sh2等。每张纸的格式为:areacntname\nparty1name\nparty2blah955word375在每张工作表中,我想将格式为name\nparty的变量重命名为仅将party作为标签。示例输出:areacntparty1party2sheetbacon955sh1spam375sh1eggs2184sh2我正在读取文件:book=pd.ExcelFile(path)然后想知道我是否需要做:forfinfilelist:df=pd.ExcelFile.parse(book,sheetname=??)'m

python - 从 python 中的 df -h 输出中选择特定列

我正在尝试创建一个简单的脚本,它将从unixdf-h命令中选择特定的列。我可以使用awk来执行此操作,但我们如何在python中执行此操作?这是df-h输出:FilesystemSizeUsedAvailUse%Mountedon/dev/mapper/vg_base-lv_root28G4.8G22G19%/tmpfs814M176K814M1%/dev/shm/dev/sda1485M120M340M27%/boot我想要这样的东西:第1列:Filesystem/dev/mapper/vg_base-lv_roottmpfs/dev/sda1第2列:Size28G814M485M

python - 测试 : Reporting and HTML output

这根本不是技术问题。但是,我找不到应该使用以下方法生成的.HTML报告:py.test--cov-reporthtmlpytest/01_smoke.py我认为肯定会将其放置在父位置或测试脚本位置。两者都没有,我一直无法找到。所以我认为它根本没有生成? 最佳答案 我认为您还需要指定要覆盖的目录/文件,例如py.test--cov=MYPKG--cov-report=html之后是html/index.html生成。 关于python-测试:ReportingandHTMLoutput,我

python - 如何从 DF 中获取在 pyspark (spark) 中包含值 None 的行

在下面的示例中,df.a==1谓词返回正确的结果,但是df.a==None在应该返回1时返回0。l=[[1],[1],[2],[2],[None]]df=sc.parallelize(l).toDF(['a'])df#DataFrame[a:bigint]df.collect()#[Row(a=1),Row(a=1),Row(a=2),Row(a=2),Row(a=None)]df.where(df.a==1).count()#2Ldf.where(df.a==None).count()#0L使用星火1.3.1 最佳答案 您可以使用