spark-submit

hadoop - Spark - Snappy 库不可用

我正在尝试保存Mllib模型。我在Spark中运行的代码:model=RandomForest.trainClassifier(train_data,numClasses=2,categoricalFeaturesInfo=categoricalFeaturesInfo,numTrees=numTrees,featureSubsetStrategy="auto",impurity=impurity,maxDepth=maxDepth,maxBins=maxBins)model.save(sc,"file:///path/to/models/model_name")错误信息是:nativ

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是，在Azure上，这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

Azure spark code section java hadoop apache-spark

hadoop - 这是正确的 apache spark 使用场景吗？

我曾经是一名sql和c#开发人员，并且刚刚进入spark和hadoop世界。这是我日常工作的场景:我们有一些包含股票和基金价格数据的巨型表格。要获得有关股票或基金的表现或统计数据，我们必须检索每种工具的历史数据并进行数学计算。我们在c#中以多线程方式进行计算(即在我们的c#代码中，我们创建多个线程来从数据库加载数据并进行计算)。由于我对spark和Hadoop的经验极其有限，如果我们从c#迁移到spark，我的感受是:我需要将所有计算转换为python。我需要将SQL数据加载到HadoopSpark将负责运行我的函数，我不再需要编写多线程代码。Spark在内存中加载数据并进行并行计算，

hadoop apache c#spark section apache-spark

hadoop - 获取 java.lang.OutOfMemoryError : GC overhead limit exceeded While Submitting Map Reduce

提交mapreduce时收到以下消息。我使用-XX:MaxPermSize=128m内存大小启动我的mapreduce程序。有没有人知道现在发生了什么-17/03/2409:58:46INFOhdfs.DFSClient:CreatedHDFS_DELEGATION_TOKENtoken1160328forsvc_pffronha-hdfs:nameservice317/03/2409:58:46ERRORhdfs.KeyProviderCache:Couldnotfinduriwithkey[dfs.encryption.key.provider.uri]tocreateakeyPr

OutOfMemoryError Submitting hadoop apache java

hadoop - Hortonworks Oozie Spark 操作 - NullPointerException

我在HDP2.5.3和oozie4.2.0上运行。spark操作设置为以yarn-client模式运行。SparkJob用于从hive表中获取数据，对其进行处理并将其存储在HDFS中。但是当我尝试从SparkAction提交Spark应用程序时，我得到了NullPointerException。workflow.xml${job_tracker}${name_node}hive2.jdbc.url${hive_beeline_server}hive2.server.principal${hive_kerberos_principal}${job_tracker}${name_node}

NullPointerException Hortonworks gt lt name hadoop apache-spark oozie hortonworks-data-platform oozie-workflow

hadoop - 由于 24 小时后无法在缓存中找到 token ，Spark 启动器作业未启动

我有一个Java应用程序，它连续运行并检查数据库中的表以获取新记录。当在表中添加新记录时，Java应用程序解压缩文件并将其放入HDFS位置，然后触发Spark作业(我在Java应用程序中使用“SparkLauncher”类以编程方式触发Spark作业)，它对HDFS位置中新添加的文件进行处理。我已经使用OozieJavaAction在集群中安排了Java应用程序。该集群是HDPkerberized集群。作业在24小时内完美运行。所有的解压缩都发生了，spark作业正在运行。但24小时后解压缩发生在Java应用程序中，但资源管理器中未触发Spark作业。异常:连接到服务器时遇到异常:信息

启动器 hadoop token section Java apache-spark kerberos oozie hortonworks-data-platform

hadoop - SPARK在Memory中是如何读取数据和管理的

谁能帮我理解SPARK如何读取hdfs数据并在主内存中管理它？换句话说，如果我创建3个RDD，第一个来自hadoop文件的RDD对其进行一些转换，然后创建第二个RDD，再次对第二个RDD进行一些转换并创建第三个RDD，然后对第三个RDD调用一些操作。将从hdfs中读取多少次数据？如果我们不显式调用缓存或持久化，所有三个RDD数据是否会保留在内存中？即当一个Action在第3个RDD上执行时，第一个RDD数据是否保留在内存中最佳答案如果所有RDD共享一个文件，则数据只会在操作时读取一次，而不会在任何转换时读取。重新生成第三个RDD

hadoop Memory section RDD stackoverflow apache-spark hdfs

java - 从数据帧 'java.lang.IllegalArgumentException: Wrong FS: file:/tmp/spark expected: hdfs://nameservice1' 创建 Hive 表时出错

我是spark的新手。我正在尝试开发一个使用Spark1.6将json数据保存到Hive表的应用程序。这是我的代码:valrdd=sc.parallelize(Seq(arr.toString))//arristheJsonarrayvaldataframe=hiveContext.read.json(rdd)dataframe.registerTempTable("RiskRecon_tmp")hiveContext.sql("DROPTABLEIFEXISTSRiskRecon_TOES")hiveContext.sql("CREATETABLERiskRecon_TOESasse

时出 IllegalArgumentException apache spark scala java hadoop apache-spark hive

hadoop - 在 Spark-on-Yarn 中配置执行器和驱动程序内存

我对在Spark-1.5.2中配置执行程序和驱动程序内存感到困惑。我的环境设置如下:3NodeMAPRCluster-EachNode:Memory256G,16CPUHadoop2.7.0Spark1.5.2-Spark-on-Yarn输入数据信息:来自Hive的460GBParquet格式表我正在使用spark-sql通过spark-on-yarn查询hive上下文，但它比Hive慢很多，而且我不确定Spark的内存配置是否正确，这些是我的配置，exportSPARK_DAEMON_MEMORY=1gexportSPARK_WORKER_MEMORY=88gspark.execut

Spark-on-Yarn 驱动 spark section hadoop apache-spark apache-spark-sql mapr

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

amp restarted google java com scala hadoop apache-spark spark-streaming google-cloud-dataproc

186 187 188189190 191 192