pyspark-dataframes

python - 如何在交互式 PySpark session 中更改 SparkContext 属性

如何在pyspark交互式shell中更改spark.driver.maxResultSize？我使用了以下代码frompysparkimportSparkConf,SparkContextconf=(SparkConf().set("spark.driver.maxResultSize","10g"))sc.stop()sc=SparkContext(conf)但它给了我错误AttributeError:'SparkConf'objecthasnoattribute'_get_object_id' 最佳答案在Spark2.3.1

何在 SparkContext strong code spark python apache-spark pyspark

python - 比较 Pyspark 中的列

我正在处理一个包含n列的PySparkDataFrame。我有一组m列(m例如:输入:PySparkDataFrame包含:col_1=[1,2,3],col_2=[2,1,4],col_3=[3,2,5]输出:col_4=max(col1,col_2,col_3)=[3,2,5]Pandas中有类似的东西，如this中所述。问题。在PySpark中有什么方法可以做到这一点，还是我应该更改将我的PySparkdf转换为Pandasdf然后执行操作？最佳答案您可以减少对列列表使用SQL表达式:frompyspark.sql.fun

Pyspark python 34 code col apache-spark

python - 使用 Pyspark 和 Hive 显示来自特定数据库的表

在Hive实例中有一些数据库和表。我想显示某些特定数据库的表(比如3_db)。+------------------+--+| database_name |+------------------+--+|1_db ||2_db ||3_db |+------------------+--+如果我从bash-nothingcomplex那里输入直线，我只需执行以下操作:showdatabases;showtablesfrom3_db;当我通过ipythonnotebeook使用pyspark时——我的廉价技巧在那里不起作用，而是在第二行给我错误

Pyspark python section code show apache-spark hive beeline

python - PySpark - 字符串匹配以创建新列

我有一个像这样的数据框:IDNotes2345CheckedbyJohn2398VerifiedbyStacy3983DoubleCheckedon2/23/17byMarsha例如，假设只有3名员工需要检查:John、Stacy或Marsha。我想像这样创建一个新专栏:IDNotesEmployee2345CheckedbyJohnJohn2398VerifiedbyStacyStacy3983DoubleCheckedon2/23/17byMarshaMarsharegex和grep哪个更好？我应该尝试什么样的功能？谢谢!编辑:我一直在尝试多种解决方案，但似乎没有任何效果。我应该放

PySpark python code strong 39 regex apache-spark apache-spark-sql

python - Pandas:按行从 DataFrame 的特定列中选择值

给定一个包含多列的DataFrame，我们如何从特定列中逐行选择值来创建一个新的Series？df=pd.DataFrame({"A":[1,2,3,4],"B":[10,20,30,40],"C":[100,200,300,400]})columns_to_select=["B","A","A","C"]目标:[10,2,3,400]一种有效的方法是使用apply语句。df["cols"]=columns_to_selectdf.apply(lambdax:x[x.cols],axis=1)不幸的是，这不是矢量化操作，并且在大型数据集上需要很长时间。任何想法将不胜感激。

中选 DataFrame section 34 code python pandas numpy indexing

python - 在 Pandas DataFrame 中拆分列表

我有一个包含许多列的csv文件。使用pandas，我将这个csv文件读入数据框，并有一个日期时间索引和五六个其他列。其中一列是时间戳列表(下面的示例带有索引)CreateDateTimeStamps4/1/11[Timestamp('2012-02-2900:00:00'),Timestamp('2012-03-3100:00:00'),Timestamp('2012-04-2500:00:00'),Timestamp('2012-06-3000:00:00')]4/2/11[Timestamp('2014-01-3100:00:00')]6/8/11[Timestamp('2012-

DataFrame python code 00 39 csv pandas

python - 合并和减去 Pandas 中的 DataFrame 列？

我有一个pandasDataFrame，类似于:col1col2col3col5NaN1282NaN484NaN48我想做两件事:1)合并第1列和第2列:newcol1col3col5128248448我试过使用.concat，但这只是连接行。我似乎无法使用带有NaN值的标准+运算符。2)从新的第1列和第3列中减去第5列，所以我最终得到:newcol1col3-7-6-6-4-4-4试过这样做:dataframe[['newcol1','col2']]-dataframe['col5']和dataframe[['newcol1','col2']].subtract(dataframe[

DataFrame python code col section pandas numpy

python - 在 Pandas DataFrame 的每一行中找到第一个非零值

我有一个Pandas数据框:importpandasaspddf=pd.DataFrame([[0.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0],[1.0,0.0,1.0,3.0,1.0,1.0,7.0,0.0],[0.0,0.0,13.0,14.0,15.0,16.0,17.0,18.0]],columns=['A','B','C','D','E','F','G','H'])ABCDEFGH00.02.03.04.05.06.07.08.011.00.01.03.01.01.07.00.020.00.013.014.015.016.017.018.0我想返回每行中第一

DataFrame python code section 39 pandas

python - 在 Pandas DataFrame 中的所有行上运行基于 numpy 的函数的快速替代方法

我有一个按以下方式创建的Pandas数据框:importpandasaspddefcreate(n):df=pd.DataFrame({'gene':["foo","bar","qux","woz"],'cell1':[433.96,735.62,483.42,10.33],'cell2':[94.93,2214.38,97.93,1205.30],'cell3':[1500,90,100,80]})df=df[["gene","cell1","cell2","cell3"]]df=pd.concat([df]*n)df=df.reset_index(drop=True)returnd

DataFrame python sparseness code section numpy pandas cython

python - 如何一步重置所有组的DataFrame索引？

我尝试将我的数据框拆分成组df=pd.DataFrame({'A':['foo','bar','foo','bar','foo','bar','foo','foo'],'B':['1','2','3','4','5','6','7','8'],})grouped=df.groupby('A')我有2组AB0foo12foo34foo56foo77foo8AB1bar23bar45bar6现在我想分别为每个组重置索引printgrouped.get_group('foo').reset_index()printgrouped.get_group('bar').reset_index()终

DataFrame python 39 foo code group-by pandas