PySpark

apache-spark - 无法使用 PySpark 从 Elasticsearch 读取

也许外面有人可以帮助我。我正在尝试使用PySpark从ES读取数据。我的JupyterNotebook代码非常简单:importpysparkconf=pyspark.SparkConf().setAppName('Test').setMaster('spark://spark-master:7077')sc=pyspark.SparkContext(conf=conf)es_rdd=sc.newAPIHadoopRDD(inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",keyClass="org.apache.h

python - PySpark 和访问 HDFS

我正在尝试获取已复制到HDFS的文件，但我似乎无法弄清楚如何实际连接。例如，我使用以下命令将文件放在HDFS中:hdfsdfs-put~/spark-1.4.0/XXX/YYYinput哪个工作正常，但现在是从PySpark定位它们的问题。spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html我使用的是与hadoop2.6匹配的spark版本，但在上述链接指向的目录中没有看到任何conf文件。我可以直接访问输入文件吗？还是需要使用PySpark进行更多配置？

PySpark python section hadoop spark apache-spark

mysql - 如何有效地将 MySQL 表读入 Apache Spark/PySpark？

我有一堆MySQL表需要对其执行一些分析。我目前已将表格导出为CSV文件并将它们放在HDFS上。我现在从PySpark上的HDFS将每个表读入不同的RDD以进行分析。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)df=sqlContext.read.format('com.databricks.spark.csv').options(header='true',inferschema='true').load('hdfs://path/to/file.csv')今天我了解到您可以直接从MySQL读取表到Spark。这样做

读入 PySpark section 39 sqlContext mysql hadoop apache-spark apache-spark-sql

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

datasets pyspark spark apache scala python ubuntu hadoop apache-spark

python - ipython 不被识别为内部或外部命令 (pyspark)

我已经安装了spark版本:spark-2.2.0-bin-hadoop2.7。我正在使用Windows10操作系统我的java版本1.8.0_144我已经设置了我的环境变量:SPARK_HOMED:\spark-2.2.0-bin-hadoop2.7HADOOP_HOMED:\Hadoop(whereIputbin\winutils.exe)PYSPARK_DRIVER_PYTHONipythonPYSPARK_DRIVER_PYTHON_OPTSnotebook路径是D:\spark-2.2.0-bin-hadoop2.7\bin当我从命令行启动pyspark时出现此错误:ipyt

别为 ipython code section python hadoop apache-spark pyspark

python - 减少和计数的结果在 pyspark 中不同

对于我的spark试验，我下载了NYtaxicsvfiles并将它们合并到一个文件nytaxi.csv中。然后我将其保存在hadoopfs中。我在7个节点管理器上使用sparkonyarn。我正在通过Ipythonnotebook连接到spark。这是一个示例python脚本，用于计算nytaxi.csv中的行数。nytaxi=sc.textFile("hdfs://bigdata6:8020/user/baris/nytaxi/nytaxi.csv")filtered=nytaxi.filter(lambdax:"distance"notinx)splits=filtered.map

pyspark python code section pre hadoop apache-spark

hadoop - ArrayWritable 的 Pyspark 用法

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有类型，用以下伪代码编写:((str,str),(int,[(int,int),...]))`我想将它保存在hadoop文件系统上。为此，我将列表转换为元组并调用.saveAsSequenceFile.但是用sc.sequenceFile重新加载rdd失败java.lang.RuntimeException:java.lang.NoSuchMethodException:org.apache.hadoop.io.ArrayWritable.().这是一个试图保存(int,int)的RDD的最小示例.importpyspark

ArrayWritable 用法 code section pyspark hadoop apache-spark

hadoop - Pyspark:将数据帧保存到 hadoop 或 hdfs 而不会溢出内存？

我正在开发一个管道，该管道读取多个配置单元表并将它们解析为一些DenseVectors，以便最终在SparkML中使用。我想进行大量迭代以找到最佳训练参数，包括模型输入和计算资源。据说我正在使用的数据帧介于50-100gb之间，分布在YARN集群上动态数量的执行程序中。每当我尝试保存到parquet或saveAsTable时，我都会收到一系列失败的任务，然后最终完全失败并建议提高spark.yarn.executor.memoryOverhead。每个id都是一行，不超过几kb。feature_df.write.parquet('hdfs:///user/myuser/featured

hadoop Pyspark label section executor apache-spark hive

hadoop - 从 Pyspark 将文件保存在 HDFS 中

我在Hive中有一个空表，我的意思是该表中没有记录。使用这个空表，我在pyspark中创建了一个dataframedf=sqlContext.table("testing.123_test")我已将此数据框注册为中的临时表df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d%H:%M:%S')在这个表中，我有一个名为id的列。现在我想像下面这样查询临时表min_id=sqlContext.sql("selectnvl(min(id),0)asminvalfrommytempTable").co

Pyspark hadoop code 34 pre hdfs spark-dataframe

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户，拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行，没有任何错误，但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙最佳答案如果您在YARN集群模式下运行，那么YARNApplicationMaster实际上是在一个节点上运行，因此将在节点本地写出。如果你找到它是哪个节点，那么你应该在那里找到你的输出目录和文件。

apache-spark Pyspark section stackoverflow spark hadoop hadoop-yarn

47 48 495051 52 53