sample_dataframe

java - 根据第一个数据框 Java 中的列创建具有新列值的新 Spark DataFrame

这应该很容易但是....使用Spark1.6.1....我有包含A、B、C列的DataFrame#1。具有值:ABC12A22A32B42C然后我用新的D列创建一个新的数据框，这样:DataFramedf2=df1.withColumn("D",df1.col("C"));到目前为止一切顺利，但我实际上希望D列中的值是有条件的，即://pseudocodeif(colC="A")thecolD="X"elseif(colC="B")thecolD="Y"elsecolD="Z"然后我将删除C列并将D重命名为C。我尝试查看Column函数，但似乎没有任何符合要求的东西；我考虑过使用df1

DataFrame Spark 34 code section java apache-spark apache-spark-sql

python - 将高维 R 数据集加载到 Pandas DataFrame

一些Rdatasets可以是loadedintoaPandasDataFrameorPanel很容易:importpandas.rpy.commonascominfert=com.load_data('infert')print(infert.head())只要R数据集的维度In[67]:com.load_data('Titanic')Cannothandledim=4此错误消息源自rpy/common.py_convert_array函数。当然，Pandas不能直接将4维矩阵塞进DataFrame或Panel中是有道理的，但是是否有一些解决方法可以将Titanic之类的数据集加载到D

高维 DataFrame code section pandas python r rpy2

python - 在 Python 的 DataFrame 中选择具有特定工作日的行

我有一个带有时间索引的DataFrame，如下所示:df.index=[2013-09-0906:23:18,2013-09-1007:09:05,...,2014-02-0206:04:04]如何在某个工作日(例如星期一)选择行？然后我不会在其他工作日排行。任何帮助表示赞赏。最佳答案您可以通过df.index.weekday获取工作日，注意Monday=0和Sunday=6要在星期一选择行，你可以这样做df=df[df.index.weekday==0] 关于python-在Pyt

中选 DataFrame section code stackoverflow python datetime pandas

python - 如何使用 dataframe between_time() 函数

我正在尝试使用between_time函数。我已经将字符串类型时间格式化为日期时间dataset['TimeStamp']=pd.to_datetime(dataset['TimeStamp'],format)并且我定义了搜索开始时间和结束时间:start=datetime.time(9,40,0)end=datetime.time(10,00,0)然后我调用dataset['TimeStamp'].between_time(start,end)这是我得到的错误:TypeError:IndexmustbeDatetimeIndex请问我该如何解决。谢谢最佳

between_time dataframe 1984 12 00 python datetime pandas

python - 将 pandas DataFrame 列附加到 CSV

我正在尝试将pandasDataFrame(单列)附加到现有的CSV，很像thispost，但它不起作用!相反，我的列被添加到csv的底部，并一遍又一遍地重复(csv中的行>>列的大小)。这是我的代码:withopen(outputPath,"a")asresultsFile:printlen(scores)scores.to_csv(resultsFile,header=False)printresultsFile终端输出:4032提前致谢! 最佳答案就像@aus_lacy已经建议的那样，您只需要先将csv文件读入数据帧，连接两

DataFrame python section csv 39 pandas

python - Pandas DataFrame - 将一列的值与相同的索引合并到列表中

我一直在这个问题上有一段时间无济于事。这几乎是atleastoneotherquestiononhere的重复，但我无法完全弄清楚如何从在线相关答案中找到我正在寻找的东西。我有一个PandasDataFrame(我们称之为df)，看起来像这样:NameValueValue2'A''8.8.8.8''x''B''6.6.6.6''y''A''6.6.6.6''x''A''8.8.8.8''x'其中Name是索引。我想将它转换成类似这样的东西:NameValueValue2'A'['8.8.8.8','6.6.6.6']'x''B'['6.6.6.6']'y'因此，基本上，对应于同一索引的

DataFrame python code Value 39 pandas

python - Pandas dataframe 笛卡尔连接

我有两个pandas数据框，我想将每个第二个数据框行与每个第一个数据框行组合起来，如下所示:首先:val1val2120021第二个:l1l2aabc结果(预期结果大小=len(first)*len(second)):val1val2l1l212aa12bc00aa00bc21aa21bb它们没有相同的索引。问候，西考最佳答案创建代理键以在它们之间进行笛卡尔连接...importpandasaspddf1=pd.DataFrame({'A':[1,0,2],'B':[2,0,1],'tmp':1})df2=pd.DataFram

dataframe python 39 section code numpy pandas

Python pandas dataframe 插入缺失数据

我有一个如下所示的数据集。我们只有一个月的最后一天的数据，我正在尝试插入其余数据，这是正确的做法吗？DateAustraliaChina2011-01-01NaNNaN2011-01-02NaNNaN------2011-01-314.755.812011-02-01NaNNaN2011-02-02NaNNaN------2011-02-284.755.812011-03-01NaNNaN2011-03-02NaNNaN------2011-03-314.756.062011-04-01NaNNaN2011-04-02NaNNaN------2011-04-304.756.06为了插入

缺失 dataframe 2011 4.75 5.81 python pandas interpolation

python - 将变化率列添加到 Pandas DataFrame

我有以下PandasDataFrame:lastrunvalue02013-10-2413:10:05+00:005537612013-10-2414:10:32+00:005673822013-10-2415:52:31+00:005823932013-10-2423:52:09+00:005998142013-10-2500:52:04+00:0061001我想在数据框中添加一列变化率，以获得:lastrunvaluechange02013-10-2413:10:05+00:0055376NaN12013-10-2414:10:32+00:0056738136222013-10-2

变化率 DataFrame section 00 2013 python pandas

Python - pandas - 将系列追加到空白 DataFrame

假设我在python中有两个pandas系列:importpandasaspdh=pd.Series(['g',4,2,1,1])g=pd.Series([1,6,5,4,"abc"])我可以只用h创建一个DataFrame，然后将g附加到它:df=pd.DataFrame([h])df1=df.append(g,ignore_index=True)我得到:>>>df1012340g421111654abc但现在假设我有一个空的DataFrame并且我尝试将h附加到它:df2=pd.DataFrame([])df3=df2.append(h,ignore_index=True)这是行不

DataFrame Python code section matrix pandas