pyspark-dataframes

python - 有效地选择与 Pandas DataFrame 中多个值之一匹配的行

这个问题在这里已经有了答案:UsealistofvaluestoselectrowsfromaPandasdataframe(8个回答)关闭7个月前。问题给定PandasDataFrame中的数据，如下所示:NameAmount---------------Alice100Bob50Charlie200Alice30Charlie10我想选择Name是集合中多个值之一的所有行{Alice,Bob}NameAmount---------------Alice100Bob50Alice30问题在Pandas中执行此操作的有效方法是什么？我看到的选项遍历行，使用Python处理逻辑选择并合并

DataFrame 之一 section code Alice python pandas

python - 使用类似 SQL 的 IN 子句过滤 Pyspark DataFrame

我想用类似SQL的IN子句过滤PysparkDataFrame，如sc=SparkContext()sqlc=SQLContext(sc)df=sqlc.sql('SELECT*frommy_dfWHEREfield1INa')其中a是元组(1,2,3)。我收到此错误:java.lang.RuntimeException:[1.67]failure:``(''expectedbutidentifierafound这基本上是说它期待像'(1,2,3)'而不是a.问题是我无法在a中手动写入值，因为它是从另一个作业中提取的。在这种情况下我将如何过滤？最佳答案

DataFrame Pyspark code 34 section python sql apache-spark

python - 如何在 Pandas DataFrame 中一次获取多列的值计数？

给定一个PandasDataFrame，它有多个具有分类值(0或1)的列，是否可以方便地同时获取每列的value_counts？例如，假设我生成一个DataFrame如下:importnumpyasnpimportpandasaspdnp.random.seed(0)df=pd.DataFrame(np.random.randint(0,2,(10,4)),columns=list('abcd'))我可以得到这样的DataFrame:abcd00110111112111030100400015011060111710108101190110如何方便地获取每列的值计数并方便地获取以下内容

多列何在 code DataFrame pandas python numpy

python - 在 Pandas Dataframe 中为字符串添加前导零

我有一个pandas数据框，其中前3列是字符串:IDtext1text202345656blahblah13456blahblah2541304blahblah3201306hiblah412313201308helloblah我想给ID添加前导零:IDtext1text20000000002345656blahblah1000000000003456blahblah2000000000541304blahblah3000000000201306hiblah4000012313201308helloblah我试过了:df['ID']=df.ID.zfill(15)df['ID']='{

Dataframe python blah section code string pandas

python - 如何在 iPython 笔记本中预览 Pandas DataFrame 的一部分？

我刚开始在IPythonNotebook中使用pandas并遇到以下问题:当从CSV文件读取的DataFrame很小时，IPythonNotebook会以漂亮的表格View显示它。当DataFrame很大时，输出如下:In[27]:evaluation=readCSV("evaluation_MO_without_VNS_quality.csv").filter(["solver","instance","runtime","objective"])In[37]:evaluationOut[37]:Int64Index:333entries,0to332Datacolumns:solv

何在 DataFrame section code python pandas ipython ipython-notebook

python - 如何对每列都有一个系列的 DataFrame 进行操作？

问题给定一个Seriess和DataFramedf，如何对df的每一列进行操作与s?df=pd.DataFrame([[1,2,3],[4,5,6]],index=[0,1],columns=['a','b','c'])s=pd.Series([3,14],index=[0,1])当我尝试添加它们时，我得到了所有np.nandf+sabc010NaNNaNNaNNaNNaN1NaNNaNNaNNaNNaN我认为我应该得到的是abc04561181920目标和动机我已经多次看到此类问题，并且看到了许多其他涉及此问题的问题。最近，我不得不花一些时间在评论中解释这个概念，同时寻找合适的规范问

DataFrame python code NaN pandas

python - Pandas DataFrame 将列表存储为字符串 : How to convert back to list

我有一个n-by-mPandasDataFramedf定义如下。(我知道这不是最好的方法。这对于我在实际代码中尝试做的事情是有意义的，但是对于这篇文章来说这将是TMI，所以请相信这种方法适用于我的特定场景.)>>>df=DataFrame(columns=['col1'])>>>df.append(Series([None]),ignore_index=True)>>>dfEmptyDataFrameColumns:[col1]Index:[]我将列表存储在此DataFrame的单元格中，如下所示。>>>df['column1'][0]=[1.23,2.34]>>>dfcol10[1,

DataFrame convert code gt python string list pandas

python - 按时间索引过滤 Pandas DataFrame

我从早上6:36到下午5:31有一个pandasDataFrame。我想删除时间小于上午8:00:00的所有观察结果。这是我的尝试:df=df[df.index这无济于事，请帮忙。最佳答案你想要df.loc[df.index因为您是按标签(索引)而不是按值选择的。selectingbylabel 关于python-按时间索引过滤PandasDataFrame，我们在StackOverflow上找到一个类似的问题： https://stackoverflow

按时 DataFrame section code pandas python

python - 创建 Spark DataFrame。无法推断类型的架构

有人可以帮我解决SparkDataFrame遇到的这个问题吗？当我执行myFloatRDD.toDF()时出现错误:TypeError:Cannotinferschemafortype:type'float'我不明白为什么......例子:myFloatRdd=sc.parallelize([1.0,2.0,3.0])df=myFloatRdd.toDF()谢谢最佳答案 SparkSession.createDataFrame，在引擎盖下使用，需要RDD/list的Row/tuple/list/dict*或pandas.DataF

推断 DataFrame code section pre python apache-spark pyspark apache-spark-sql

python - 导出 pandas DataFrame 时如何删除列名行？

假设我将以下Excel电子表格导入数据框:Val1Val2Val3123567912如何删除列名行(在本例中为Val1、Val2、Val3)以便导出没有列名的csv，仅导出数据？我试过df.drop()和df.ix[1:]都没有成功。最佳答案您可以使用header=False写入没有header的csv，使用index=False写入没有索引的csv。如果需要，您还可以使用sep修改分隔符。没有标题行的CSV示例，省略了标题行:df.to_csv('filename.csv',header=False)TSV(制表符分隔)示例，

列名 DataFrame code section python pandas csv header