草庐IT

sample_dataframe

全部标签

java - 根据第一个数据框 Java 中的列创建具有新列值的新 Spark DataFrame

这应该很容易但是....使用Spark1.6.1....我有包含A、B、C列的DataFrame#1。具有值:ABC12A22A32B42C然后我用新的D列创建一个新的数据框,这样:DataFramedf2=df1.withColumn("D",df1.col("C"));到目前为止一切顺利,但我实际上希望D列中的值是有条件的,即://pseudocodeif(colC="A")thecolD="X"elseif(colC="B")thecolD="Y"elsecolD="Z"然后我将删除C列并将D重命名为C。我尝试查看Column函数,但似乎没有任何符合要求的东西;我考虑过使用df1

python - 将高维 R 数据集加载到 Pandas DataFrame

一些Rdatasets可以是loadedintoaPandasDataFrameorPanel很容易:importpandas.rpy.commonascominfert=com.load_data('infert')print(infert.head())只要R数据集的维度In[67]:com.load_data('Titanic')Cannothandledim=4此错误消息源自rpy/common.py_convert_array函数。当然,Pandas不能直接将4维矩阵塞进DataFrame或Panel中是有道理的,但是是否有一些解决方法可以将Titanic之类的数据集加载到D

python - 在 Python 的 DataFrame 中选择具有特定工作日的行

我有一个带有时间索引的DataFrame,如下所示:df.index=[2013-09-0906:23:18,2013-09-1007:09:05,...,2014-02-0206:04:04]如何在某个工作日(例如星期一)选择行?然后我不会在其他工作日排行。任何帮助表示赞赏。 最佳答案 您可以通过df.index.weekday获取工作日,注意Monday=0和Sunday=6要在星期一选择行,你可以这样做df=df[df.index.weekday==0] 关于python-在Pyt

python - 如何使用 dataframe between_time() 函数

我正在尝试使用between_time函数。我已经将字符串类型时间格式化为日期时间dataset['TimeStamp']=pd.to_datetime(dataset['TimeStamp'],format)并且我定义了搜索开始时间和结束时间:start=datetime.time(9,40,0)end=datetime.time(10,00,0)然后我调用dataset['TimeStamp'].between_time(start,end)这是我得到的错误:TypeError:IndexmustbeDatetimeIndex请问我该如何解决。谢谢 最佳

python - 将 pandas DataFrame 列附加到 CSV

我正在尝试将pandasDataFrame(单列)附加到现有的CSV,很像thispost,但它不起作用!相反,我的列被添加到csv的底部,并一遍又一遍地重复(csv中的行>>列的大小)。这是我的代码:withopen(outputPath,"a")asresultsFile:printlen(scores)scores.to_csv(resultsFile,header=False)printresultsFile终端输出:4032提前致谢! 最佳答案 就像@aus_lacy已经建议的那样,您只需要先将csv文件读入数据帧,连接两

python - Pandas DataFrame - 将一列的值与相同的索引合并到列表中

我一直在这个问题上有一段时间无济于事。这几乎是atleastoneotherquestiononhere的重复,但我无法完全弄清楚如何从在线相关答案中找到我正在寻找的东西。我有一个PandasDataFrame(我们称之为df),看起来像这样:NameValueValue2'A''8.8.8.8''x''B''6.6.6.6''y''A''6.6.6.6''x''A''8.8.8.8''x'其中Name是索引。我想将它转换成类似这样的东西:NameValueValue2'A'['8.8.8.8','6.6.6.6']'x''B'['6.6.6.6']'y'因此,基本上,对应于同一索引的

python - Pandas dataframe 笛卡尔连接

我有两个pandas数据框,我想将每个第二个数据框行与每个第一个数据框行组合起来,如下所示:首先:val1val2120021第二个:l1l2aabc结果(预期结果大小=len(first)*len(second)):val1val2l1l212aa12bc00aa00bc21aa21bb它们没有相同的索引。问候,西考 最佳答案 创建代理键以在它们之间进行笛卡尔连接...importpandasaspddf1=pd.DataFrame({'A':[1,0,2],'B':[2,0,1],'tmp':1})df2=pd.DataFram

Python pandas dataframe 插入缺失数据

我有一个如下所示的数据集。我们只有一个月的最后一天的数据,我正在尝试插入其余数据,这是正确的做法吗?DateAustraliaChina2011-01-01NaNNaN2011-01-02NaNNaN------2011-01-314.755.812011-02-01NaNNaN2011-02-02NaNNaN------2011-02-284.755.812011-03-01NaNNaN2011-03-02NaNNaN------2011-03-314.756.062011-04-01NaNNaN2011-04-02NaNNaN------2011-04-304.756.06为了插入

python - 将变化率列添加到 Pandas DataFrame

我有以下PandasDataFrame:lastrunvalue02013-10-2413:10:05+00:005537612013-10-2414:10:32+00:005673822013-10-2415:52:31+00:005823932013-10-2423:52:09+00:005998142013-10-2500:52:04+00:0061001我想在数据框中添加一列变化率,以获得:lastrunvaluechange02013-10-2413:10:05+00:0055376NaN12013-10-2414:10:32+00:0056738136222013-10-2

Python - pandas - 将系列追加到空白 DataFrame

假设我在python中有两个pandas系列:importpandasaspdh=pd.Series(['g',4,2,1,1])g=pd.Series([1,6,5,4,"abc"])我可以只用h创建一个DataFrame,然后将g附加到它:df=pd.DataFrame([h])df1=df.append(g,ignore_index=True)我得到:>>>df1012340g421111654abc但现在假设我有一个空的DataFrame并且我尝试将h附加到它:df2=pd.DataFrame([])df3=df2.append(h,ignore_index=True)这是行不