草庐IT

first_df

全部标签

python - Pandas :对于 df 中的每一行,复制行 N 次,稍作更改

所以我有一个像这样的DataFrame:Nstart1108/01/20149:30:022108/01/201410:30:023208/01/201412:30:024308/01/20144:30:02我需要将每一行复制N次,每次都增加一个小时开始,如下所示:Nstart1108/01/20149:30:022108/01/201410:30:023208/01/201412:30:023208/01/201413:30:024308/01/20144:30:024308/01/20145:30:024308/01/20146:30:02我如何在pandas中做到这一点?

Python pandas : Why does df. iloc[ :, :-1]. 我的训练数据的值只选择到倒数第二列?

简单来说,对于同一个训练数据帧df,当我使用X=df.iloc[:,:-1].values,它将选择数据框的倒数第二列而不是最后一列(这是我想要的,但这是一种奇怪的行为我以前从未见过),我知道这是倒数第二列的值和该行的最后一列的值不同。但是,使用y=df.iloc[:,-1].values给我最后一列值的行向量,这正是我想要的。为什么X的负数1反而给我倒数第二列的值? 最佳答案 我认为您在df中只有两列,因为如果有更多列,iloc选择没有最后的所有列:df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],

Python循环遍历Excel工作表,放入一个df

我有一个excel文件foo.xlsx,其中包含大约40张sh1、sh2等。每张纸的格式为:areacntname\nparty1name\nparty2blah955word375在每张工作表中,我想将格式为name\nparty的变量重命名为仅将party作为标签。示例输出:areacntparty1party2sheetbacon955sh1spam375sh1eggs2184sh2我正在读取文件:book=pd.ExcelFile(path)然后想知道我是否需要做:forfinfilelist:df=pd.ExcelFile.parse(book,sheetname=??)'m

python - 奇怪的 : logger only uses the formatter of the first handler for exceptions

我正在目睹日志记录模块以一种有趣的方式运行。我错过了什么吗?我正在做通常有两个处理程序的事情:一个StreamHandler仅用于将INFO和更高级别记录到控制台,另一个FileHandler也将处理所有DEBUG信息。在我决定为异常(exception)设置不同的格式之前,它一直运行良好。我想要文件中的完整堆栈跟踪,但只是控制台上的异常类型和值。由于处理程序具有setFormatter函数,而且编写logging.Formatter的子类似乎很容易,所以我认为它会起作用。控制台处理程序和文件处理程序都有自己的格式化程序。代码中的打印语句证明了这一点。但是,对logger.except

python - 从 python 中的 df -h 输出中选择特定列

我正在尝试创建一个简单的脚本,它将从unixdf-h命令中选择特定的列。我可以使用awk来执行此操作,但我们如何在python中执行此操作?这是df-h输出:FilesystemSizeUsedAvailUse%Mountedon/dev/mapper/vg_base-lv_root28G4.8G22G19%/tmpfs814M176K814M1%/dev/shm/dev/sda1485M120M340M27%/boot我想要这样的东西:第1列:Filesystem/dev/mapper/vg_base-lv_roottmpfs/dev/sda1第2列:Size28G814M485M

python - 如何从 DF 中获取在 pyspark (spark) 中包含值 None 的行

在下面的示例中,df.a==1谓词返回正确的结果,但是df.a==None在应该返回1时返回0。l=[[1],[1],[2],[2],[None]]df=sc.parallelize(l).toDF(['a'])df#DataFrame[a:bigint]df.collect()#[Row(a=1),Row(a=1),Row(a=2),Row(a=2),Row(a=None)]df.where(df.a==1).count()#2Ldf.where(df.a==None).count()#0L使用星火1.3.1 最佳答案 您可以使用

python - 在包含最长列表的 Pandas DF 中查找列的名称

给定一个PandasDataFrame,其列表存储在多个列中,是否有一种简单的方法可以找到包含每行最长列表的列名?例如,使用此数据:positivenegativeneutral1[marvel,moral,bold,destiny][][view,should]2[beautiful][complicated,need][]3[celebrate][crippling,addiction][big]我想将“正”标识为第1行的最长列表列,将“负”标识为第2行和第3行。我想我可以使用str.len()来计算列表长度并使用idmax()来获取列名,但不知道如何将它们结合起来。

python - 如何为 N 个骰子生成 "Go First"骰子?

背景如此处所述http://www.ericharshbarger.org/dice/#gofirst_4d12,“先走”骰子是一组四个骰子,每个都有唯一的编号,因此:任何两个或更多骰子都不会出现平局。针对该组中的任何其他骰子掷出的任何骰子与该骰子“赢/输”的机会均等。这里是提到的四个骰子的编号:DICECOUNT:4FACECOUNT:12D1:1,8,11,14,19,22,27,30,35,38,41,48D2:2,7,10,15,18,23,26,31,34,39,42,47D3:3,6,12,13,17,24,25,32,36,37,43,46D4:4,5,9,16,20,2

python - Matplotlib 动画 : first frame remains in canvas when using blit

我正在尝试使用Matplotlib动画库绘制两个旋转椭圆,并且我设法让它工作(或多或少)。问题是正在渲染的第一帧没有更新,所以当我在我的Canvas上有两个旋转的椭圆时,我也有原始位置/方向的椭圆。查看我的简单代码:importmatplotlib.pyplotaspltfrommatplotlib.patchesimportEllipsefrommatplotlibimportanimationfig=plt.figure()ax=fig.add_subplot(111,aspect='equal')e1=Ellipse(xy=(0.5,0.5),width=0.5,height=0

python Pandas : How to move one row to the first row of a Dataframe?

给定一个已编入索引的现有Dataframe。>>>df=pd.DataFrame(np.random.randn(10,5),columns=['a','b','c','d','e'])>>>dfabcde0-0.131666-0.3150190.306728-0.642224-0.29456210.769310-1.2770650.735549-0.900214-1.8263202-1.561325-0.1555710.5446970.275880-0.45156430.612561-0.5404572.390871-2.6997410.5348074-1.504476-2.1137