PySpark3

python - ipython 不被识别为内部或外部命令 (pyspark)

我已经安装了spark版本:spark-2.2.0-bin-hadoop2.7。我正在使用Windows10操作系统我的java版本1.8.0_144我已经设置了我的环境变量:SPARK_HOMED:\spark-2.2.0-bin-hadoop2.7HADOOP_HOMED:\Hadoop(whereIputbin\winutils.exe)PYSPARK_DRIVER_PYTHONipythonPYSPARK_DRIVER_PYTHON_OPTSnotebook路径是D:\spark-2.2.0-bin-hadoop2.7\bin当我从命令行启动pyspark时出现此错误:ipyt

别为 ipython code section python hadoop apache-spark pyspark

python - 减少和计数的结果在 pyspark 中不同

对于我的spark试验，我下载了NYtaxicsvfiles并将它们合并到一个文件nytaxi.csv中。然后我将其保存在hadoopfs中。我在7个节点管理器上使用sparkonyarn。我正在通过Ipythonnotebook连接到spark。这是一个示例python脚本，用于计算nytaxi.csv中的行数。nytaxi=sc.textFile("hdfs://bigdata6:8020/user/baris/nytaxi/nytaxi.csv")filtered=nytaxi.filter(lambdax:"distance"notinx)splits=filtered.map

pyspark python code section pre hadoop apache-spark

hadoop - ArrayWritable 的 Pyspark 用法

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有类型，用以下伪代码编写:((str,str),(int,[(int,int),...]))`我想将它保存在hadoop文件系统上。为此，我将列表转换为元组并调用.saveAsSequenceFile.但是用sc.sequenceFile重新加载rdd失败java.lang.RuntimeException:java.lang.NoSuchMethodException:org.apache.hadoop.io.ArrayWritable.().这是一个试图保存(int,int)的RDD的最小示例.importpyspark

ArrayWritable 用法 code section pyspark hadoop apache-spark

hadoop - Pyspark:将数据帧保存到 hadoop 或 hdfs 而不会溢出内存？

我正在开发一个管道，该管道读取多个配置单元表并将它们解析为一些DenseVectors，以便最终在SparkML中使用。我想进行大量迭代以找到最佳训练参数，包括模型输入和计算资源。据说我正在使用的数据帧介于50-100gb之间，分布在YARN集群上动态数量的执行程序中。每当我尝试保存到parquet或saveAsTable时，我都会收到一系列失败的任务，然后最终完全失败并建议提高spark.yarn.executor.memoryOverhead。每个id都是一行，不超过几kb。feature_df.write.parquet('hdfs:///user/myuser/featured

hadoop Pyspark label section executor apache-spark hive

hadoop - 从 Pyspark 将文件保存在 HDFS 中

我在Hive中有一个空表，我的意思是该表中没有记录。使用这个空表，我在pyspark中创建了一个dataframedf=sqlContext.table("testing.123_test")我已将此数据框注册为中的临时表df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d%H:%M:%S')在这个表中，我有一个名为id的列。现在我想像下面这样查询临时表min_id=sqlContext.sql("selectnvl(min(id),0)asminvalfrommytempTable").co

Pyspark hadoop code 34 pre hdfs spark-dataframe

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户，拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行，没有任何错误，但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙最佳答案如果您在YARN集群模式下运行，那么YARNApplicationMaster实际上是在一个节点上运行，因此将在节点本地写出。如果你找到它是哪个节点，那么你应该在那里找到你的输出目录和文件。

apache-spark Pyspark section stackoverflow spark hadoop hadoop-yarn

hadoop - 如何从 pyspark rdd 或分区确定原始 s3 输入文件名

我正在使用pyspark流式处理来自S3的ETL输入文件。我需要能够建立所有原始输入文件的审计线索在s3://上，我的Parquet输出在hdfs://上结束。给定一个dstream、rdd，甚至是一个特定的rdd分区，是否有可能确定s3中输入数据的原始文件名？目前我知道的唯一方法是采取rdd.toDebugString()并尝试解析它。然而，这感觉真的很hacky并且不在某些情况下工作。例如，解析调试输出对我的批处理模式导入不起作用我也在做(使用sc.TextFile("s3://...foo/*")样式的glob)。有没有人有确定原始文件名的明智方法？似乎其他一些spark用户过去

pyspark hadoop section code stackoverflow amazon-s3 apache-spark pyspark-sql

python - 安排 pyspark 笔记本

我有一个ipython笔记本，其中包含集群上的一些PySpark代码。目前我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。该设置感觉不太理想，我们想知道是否有其他选择。我们先将.ipynb文件转换成.py文件，并移动到hdfs中。除了这个文件，我们还创建了一个调用python文件的.sh文件。内容类似于:#!/bin/shset-e[-r/usr/local/virtualenv/pyspark/bin/activate]&&source/usr/local/virtualenv/pyspark/bin/activatespark-submit--masteryarn-

pyspark 笔记 section code python hadoop oozie jupyter-notebook

python - 提交 PySpark 应用以在集群模式下在 YARN 上产生 Spark

我正在尝试测试为我工作的团队构建的大数据平台。它在YARN上运行spark。是否可以创建PySpark应用程序并在YARN集群上提交它们？我能够成功提交示例SparkPijar文件，它在YARNstdout日志中返回输出。这是我要测试的PySpark代码；frompysparkimportSparkConffrompysparkimportSparkContextHDFS_MASTER='hadoop-master'conf=SparkConf()conf.setMaster('yarn')conf.setAppName('spark-test')sc=SparkContext(con

用以 PySpark scala spark java python hadoop apache-spark hadoop-yarn

amazon-web-services - Jupyter notebook、pyspark、hadoop-aws 问题

我正在尝试结合使用Jupyter、PySpark和S3文件(通过s3a协议(protocol))。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider，因为我们需要使用s3sessiontoken。这是添加到hadoop-aws2.8.3+。我正在尝试以下代码:importosfrompyspark.sqlimportSparkSessionos.environ['PYSPARK_SUBMIT_ARGS']='--packagesorg.apache.hadoop:hadoop-aws:3.0.0pyspark-shel

amazon-web-services hadoop-aws hadoop 39 spark apache-spark amazon-s3 pyspark

33 34 353637 38 39