dataframe

python - Pandas 通过两列左连接 DataFrames

你能帮我加入两个DataFrame吗？我有两个DataFrame。df1:indexval1val2--------------------1str1abc12str2abc23str3abc34str4abc95str5abc4df2:indexval2------------1abc12abc24abc35abc49abc5我需要基于前两个创建一个DataFrame，并通过两列进行左连接。列index和val2在两个DataFrame中具有相同的名称。df3的结果应该是这样的:indexval1val2val3----------------------------1str1abc

python - 如何检测 DataFrame 中数据线性变化的连续跨度？

我正在尝试检测相关变量在DataFrame中的某些数据内线性变化的连续跨度。数据中可能有许多跨度可以满足这一点。我开始使用基于RobustlinearmodelestimationusingRANSAC的ransac.但是，我在使用示例数据时遇到问题。目标检测相关变量在数据中线性变化的连续跨度。待检测的跨度由20多个连续的数据点组成。所需的输出将是放置连续跨度的范围日期。玩具示例在下面的玩具示例代码中，我生成随机数据，然后设置数据的两个部分以创建线性变化的连续跨度。然后我尝试将线性回归模型拟合到数据中。我使用的其余代码(此处未显示)只是Robustlinearmodelestimati

跨度数据线 date_range start range python pandas numpy scikit-learn ransac

python - Spark Dataframe 中 `float` 与 `np.nan` 的比较

这是预期的行为吗？我想提出一个Spark问题，但这似乎是一个基本功能，很难想象这里有一个错误。我错过了什么？pythonimportnumpyasnp>>>np.nan>>np.nan>0.0FalsePySparkfrompyspark.sql.functionsimportcoldf=spark.createDataFrame([(np.nan,0.0),(0.0,np.nan)])df.show()#+---+---+#|_1|_2|#+---+---+#|NaN|0.0|#|0.0|NaN|#+---+---+df.printSchema()#root#|--_1:double

Dataframe python code NaN pre numpy apache-spark pyspark

python - pandas.DataFrame.load/python2 和 python3 之间的保存 : pickle protocol issues

我还没有弄清楚如何使用pandasDataFrames在python2和3之间进行pickle加载/保存。我在pickler中有一个“协议(protocol)”选项，但我没有成功玩过，但我希望有人能给我一个快速的想法来尝试。这是获取错误的代码:python2.7>>>importpandas;frompylabimport*>>>a=pandas.DataFrame(randn(10,10))>>>a.save('a2')>>>a=pandas.DataFrame.load('a2')>>>a=pandas.DataFrame.load('a3')Traceback(mostrecen

python DataFrame pandas gt

python - 将 Pandas 中的一列转换为一个长字符串 (Python 3)

如何将pandas列转换为一个长字符串？例如，转换以下DF:KeywordJamesWentToTheMarket读作KeywordJameswenttothemarket有什么帮助吗？最佳答案您可以先使用.tolist将列转换为列表，然后使用.join方法将所有单独的单词连接在一起。print(df)Keyword0James1Went2To3The4Market''.join(df['Keyword'].tolist())#output:'JamesWentToTheMarket'#ortoputtheminadatafra

python Pandas section code Keyword string python-3.x dataframe

python - 从 Pandas DataFrame 返回单个单元格值

我想问一个关于这个线程的扩展问题:SelectrowsfromaDataFramebasedonvaluesinacolumninpandas.下面列出了该线程的代码:importpandasaspdimportnumpyasnpdf=pd.DataFrame({'A':'foobarfoobarfoobarfoofoo'.split(),'B':'oneonetwothreetwotwoonethree'.split(),'C':np.arange(8),'D':np.arange(8)*2})print(df)#ABCD#0fooone00#1barone12#2footwo24#

格值 DataFrame 39 foo section python pandas

python - Pandas 与 Numpy 数据帧

看看这几行代码:df2=df.copy()df2[1:]=df[1:]/df[:-1].values-1df2.ix[0,:]=0我们的讲师说我们需要使用.values属性来访问底层的numpy数组，否则我们的代码将无法运行。我知道pandasDataFrame确实有一个作为numpy数组的底层表示，但我不明白为什么我们不能仅使用切片直接在pandasDataFrame上操作。你能解释一下吗？最佳答案 pandas专注于表格数据结构，在执行操作(加法、减法等)时，它会查看标签-而不是位置。考虑以下DataFrame:df=pd.D

python Pandas code section pre numpy multidimensional-array dataframe

python - "IndexError: positional indexers are out-of-bounds"当他们显然不是

这是我正在使用的一些代码的MWE。我通过切片和一些条件慢慢地削减了一个初始数据帧，直到我只有我需要的行。每个五行block实际上代表一个不同的对象，因此，当我减少内容时，如果每个五行block中的任何一行满足条件，我想保留它——这就是循环keep.index完成的。无论如何，当我完成后，我可以看到我想要的最终索引存在，但我收到一条错误消息，指出“IndexError:位置索引器超出范围。”这里发生了什么？importpandasaspdimportnumpyasnptemp=np.random.rand(100,5)df=pd.DataFrame(temp,columns=['Firs

out-of-bounds IndexError indices section new_indices_to_use python pandas dataframe conditional-statements

python - 如果超过特定数量的 NA 值，则删除一列

我想编写一个程序，如果它超过特定数量的NA值，则删除一列。这就是我所做的。defcheck(x):forcolumnindf:ifdf.column.isnull().sum()>2:df.drop(column,axis=1)执行上面的代码没有错误，但是在执行df.apply(check)时，出现了很多错误。P.S:我知道df.dropna(thresh,axis)中的thresh争论有什么提示吗？为什么我的代码不起作用？谢谢最佳答案尽管jezrael的回答有效，但这不是您应该采用的方法。相反，创建一个掩码:~df.isnul

python NA code 39 section python-3.x pandas dataframe data-analysis

python - 如何舍入 Pandas 数据框中的日期时间索引？

有一个像这样的pandas数据框:index2018-06-0102:50:00R45.48-2.82018-06-0107:13:00R45.85-2.0...2018-06-0108:37:00R45.87-2.7我想像这样将索引四舍五入到小时:index2018-06-0102:00:00R45.48-2.82018-06-0107:00:00R45.85-2.0...2018-06-0108:00:00R45.87-2.7我正在尝试以下代码:df=df.date_time.apply(lambdax:x.round('H'))但返回一个系列而不是具有修改索引列的数据框

python Pandas 2018 01 code datetime dataframe

16 17 181920 21 22