sparking

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时，是否有任何方法可以从SparkExecutor获取Hadoop文件系统？如果没有，至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统？考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

java - Spark App 参数编码

Spark似乎为应用程序参数使用了平台编码参数，但具体是哪一个呢？我用这样的参数启动一个spark应用程序:finalListparams=createParamList(...)sparkLauncher.addAppArgs(params.toArray(newString[params.size()]));似乎是平台相关的，在某些平台上，编码是错误的:INFOS:childArgs[[...]---user=Syst??me]用户应该是“Système”我尝试将javaoptsfile.encoding参数设置为驱动程序和执行程序，但我没有更改任何内容。有没有人有想法？谢谢

Spark java section code params apache-spark hadoop encoding hdfs

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群，如前所述here并且还设置了spark以提供对此Hadoop环境的引用，如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外，我可以使用localhost查看HDFS。.为了更进一步，我将示例文件上传到HDFS，并使用Hadooplocalhost验证它是否可用。现在，我尝试使用Java和spark-shell(Scala)来计算文件中的行数，但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

时出 HadoopRDD spark apache Hadoop java scala apache-spark bigdata

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/，Google Dataproc 上的 Spark 失败

几个月来，我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop，但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil

FileNotFoundException apache-spark java 抢占 DiskBlockObjectWriter hadoop google-cloud-storage google-cloud-dataproc

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别，pymongo是否只能与mango-hadoop一起使用？pymongo是否只能与mongo-hadoop一起使用？最佳答案 MongoDBConnectorforHadoop是一个库，它允许MongoDB(或其数据格式的备份文件，BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能，并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

mongo mongo-hadoop section strong MongoDB apache-spark hadoop pymongo

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs，如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

apache-spark pyspark code section hdfs hadoop

apache-spark - 来自边缘节点 Jupyter 笔记本的 spark jdbc 连接

我需要使用jdbc连接到Oracle数据库来创建数据框。我正在使用edgenode的Jupyternotebook来进行此连接。Spark在Jupyternotebook中以客户端模式运行。数据库主机和端口没有来自边缘节点的连接，但它是从数据节点打开的。但是当我尝试创建数据框时，由于“连接超时”错误而失败。正常吗？我认为它正在尝试从无法建立连接的边缘节点建立连接？我怎样才能确保连接是从执行者那里发生的(据我所知，这在理论上应该是这样的)。最佳答案这是“正常”的。一般来说，驱动程序节点(在您的情况下是边缘节点)必须具有与任何工作节

spark apache-spark section Jupyter 的 hadoop jupyter-notebook

apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起

当在只有2个不可抢占的工作节点和其他100~个可抢占节点的dataproc上运行spark集群时，我有时会得到一个完全不可用的集群，原因是太多的连接错误、数据节点错误、丢失的执行程序，但仍在跟踪心跳...总是出现这样的错误:18/08/0815:40:11WARNorg.apache.hadoop.hdfs.DataStreamer:ErrorRecoveryforBP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487inpipeline[DatanodeInfoWithStorage[10.128.0.35:9866,DS

spark 抢占 section DatanodeInfoWithStorage apache-spark hadoop hadoop-yarn google-cloud-dataproc

apache-spark - spark-sql读取hive表失败

我想通过hivejdbc连接将整个hive表加载到spark内存中。并且已经在我的项目中添加了hive-site.xml、hdfs-site.xml。由于成功获取列名(eg.role_id)，spark已经连接到hive。但是spark似乎将列名加载为数据，并抛出异常。这是我的代码:valdf=spark.read.format("jdbc").option("driver",CommonUtils.HIVE_DIRVER).option("url",CommonUtils.HIVE_URL).option("dbtable","datasource_test.t_leave_map_

spark apache-spark cloudera2 cloudera hadoop hive

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的，但还有Spark。Spark拥有所有RDD类方法，这些方法完全有能力，但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库，为什么Hive会出现？文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

enableHiveSupport apache-spark section Hive class hadoop

40 41 424344 45 46