apache-spark-1.3

java - Java 中的 Spark 提交(SparkLauncher)

我制作了spark+hadoopyarn环境并且spark-submit命令运行良好。所以我在我的应用程序jar中制作了SparkLauncherjava代码来执行此操作，但不知何故它不起作用(实际上电脑风扇一开始是在旋转，但不像我使用spark-submit那样长。)它似乎运行不佳(与spark-submit不同，hadoopwebui中没有应用程序登录)。当我使用“SparkLauncher”时，我看不到任何错误日志。没有日志消息，我无法用它做任何事情。到目前为止，这是我如何做到的。publicclassMain{publicstaticvoidmain(String[]args)

hadoop - Apache Toree 与 Anaconda Jupyter Notebook

我想寻求与AnacondaJupyternotebook相关的帮助。我想在Jupyternotebook中编写PySpark和SparkR，我按照在线教程学习如何将ApacheToree与Jupyternotebook一起安装。我正在使用ClouderaManager包裹来管理我的KerberizedHadoop集群。但是，我无法打开ApacheToreePySpark的内核，服务器日志中出现以下错误。[I15:24:50.529NotebookApp]Creatingnewnotebookin[I15:24:52.079NotebookApp]Kernelstarted:8cb483

Anaconda Notebook scala SparkSubmit apache hadoop jupyter-notebook apache-toree

hadoop - 简单的基于 Java 的 Spark 程序没有完成

我创建了一个非常简单的“字数统计”基于Java的Spark程序，我在YARN上运行的集群中运行它，详细信息如下:Hadoop详细信息:主节点(NN、SNN、RM)-192.168.0.100从节点(DN,NM)-192.168.0.105,192.168.0.108Spark详情:Master运行于:192.168.0.100worker运行在:192.168.0.105、192.168.0.108我已经从提交Spark作业的地方创建了一个客户端机器(客户端机器的IP地址是-->192.168.0.240)。我用来将作业提交到Spark的以下命令:spark-submit--class

hadoop Spark code yarn application apache-spark hadoop-yarn hadoop2

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/yarn/exceptions/YarnRuntimeException 中的异常

我在hadoop-2.7.0上运行了一个mapreduce作业，但是这个mapreduce作业没有完成，我遇到了这个错误:Jobjob_1491881070758_0003failedwithstateFAILEDdueto:Applicationapplication_1491881070758_0003failed2timesduetoAMContainerforappattempt_1491881070758_0003_000002exitedwithexitCode:1Formoredetailedoutput,checkapplicationtrackingpage:http

hadoop NoClassDefFoundError gt lt artifactId mapreduce hadoop-yarn

r - sparklyr - rsparkling as_h2o_frame() 错误 java.lang.IllegalArgumentException : Unsupported argument: (spark. dynamicAllocation.enabled,true)

我正在尝试在sparklyrsession期间通过H2o(使用库rsparkling)使用一些机器学习功能。我正在运行hadoop集群。考虑以下示例:library(dplyr)library(sparklyr)library(rsparkling)library(h2o)#configurethesparksessionandconnectsc=spark_connect(master='yarn-client',spark_home='/usr/hdp/current/spark-client',app_name='sparklyr',config=list("sparklyr.s

IllegalArgumentException dynamicAllocation AbstractChannelHandlerContext java netty r hadoop h2o sparklyr

hadoop - Hadoop/Spark 生态系统中的数据移动

我有一个基本问题，我希望能更好地理解它:背景假设我有一个巨大的CSV文件(50GB)，我想将其提供给数据科学团队进行分析。理想情况下，团队中的每个成员都能够使用他们选择的语言与数据进行交互，数据不需要经常移动(考虑到它的大小)并且所有人都可以灵活地访问计算资源。建议的解决方案ApacheSpark似乎是满足上述要求的解决方案的当前领先者。Scala、Python、SQL和R都能够在灵活的计算资源之上(如果利用DataBricks、Azure、AWS、Cloudera等云提供商)访问其所在位置的数据。问题以MicrosoftAzure/HDInsight域为例。假设我们要将这个大型CSV

hadoop hdinsight strong section apache-spark cloudera azure-hdinsight databricks

scala - 将文件从远程服务器上运行的 Apache Zeppelin 传输到 HDFS

我有一个在远程服务器上运行的ApacheZeppelin实例，我正在使用Scala通过Spark解释器与其通信。我想将存储在该服务器目录中的csv文件传输到也在远程服务器上的HDFS(Hadoop)。我无权访问服务器上的任何配置文件，我无法安装任何东西，我只能在Zeppelin中发出命令。我试过使用标准sc.textFile("file:///test.csv")语句，但它返回以下错误:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage19.0failed4times,mostrecentfa

Zeppelin Apache code section scala hadoop apache-spark hdfs apache-zeppelin

hadoop - Spark parquet 数据帧分区数

我有一个HDFS文件夹，其中包含两个250MB的Parquet文件。hadoopdfblock大小设置为128MB。具有以下代码:JavaSparkContextsparkContext=newJavaSparkContext();SQLContextsqlContext=newSQLContext(sparkContext);DataFramedataFrame=sqlContext.read().parquet("hdfs:////user/test/parquet-folder");LOGGER.info("Nr.ofrddpartitions:{}",dataFrame.rdd

parquet hadoop section strong apache-spark spark-dataframe

hadoop - 如何修复 Spark Streaming 中的数据局部性？

Spark版本:1.6.2Spark配置:执行者:18每个执行器的内存:30g核心x执行器:2卡夫卡配置:分区:18上下文:我有一个Spark流管道，它使用Kafka的新直接方法而不是接收器。此管道从kafka接收数据，转换数据并插入到Hive。我们宣布用作插入数据操作的触发器的位置级别等于RACK_LOCAL，而不是PROCESS_LOCAL或NODE_LOCAL。此外，输入大小列显示网络信息而不是内存。我已经设置了配置变量spark.locality.wait=30s来测试spark是否等待足够长的时间来选择最佳的局部模式，但没有显示任何改进。考虑到kafkapartitions=

Streaming hadoop strong code section apache-spark spark-streaming

hadoop - 使用 Hive on spark 将数据从 gzip 格式转换为 sequenceFile 格式

I'mtryingtoreadalargegzipfileintohivethroughsparkruntimetoconvertintoSequenceFileformat而且，我想高效地做到这一点。据我所知，Spark只支持每个gzip文件一个映射器，就像它对文本文件一样。有没有办法改变正在读取的gzip文件的映射器数量？还是我应该选择另一种格式，如Parquet？我现在卡住了。问题是我的日志文件是类似json的数据，保存为txt格式，然后进行gzip压缩，所以为了阅读，我使用了org.apache.spark.sql.json。我看到的示例显示-将数据转换为SequenceFil

sequenceFile hadoop 射器 section table apache-spark hive pyspark

209 210 211212213 214 215