spark_libs

scala - 在 OSX 上安装本地 spark

我试图在我的本地机器(MacBookproosx10.13.3)上运行我的Scala作业，但我在运行时遇到错误。我的版本:scala:2.11.12Spark:2.3.0hadoop:3.0.0我通过brew安装了所有东西。异常(exception)是:引起:java.lang.StringIndexOutOfBoundsException:开始0，结束3，长度2发生在那些行:valconf=newSparkConf().setAppName(getName).setMaster("local[2]")valcontext=newSparkContext(conf)最后一行是抛出异常的

apache-spark - Spark Interpreter 在 Zeppelin 中不起作用

我正在使用Zeppelin0.7.0来运行Spark作业。我的Zeppelin是独立安装的，而Spark是使用Hortonworks/Ambari(版本2.6)安装的。当我在Ambari中检查Spark的状态时，它全是绿色的。对于许多解释器来说，Zeppelin也运行良好。但是Spark解释器不起作用。我尝试做的任何事情，甚至像sc.version这样简单的事情都会给出完全相同的错误:java.lang.NullPointerExceptionatorg.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38)atorg.apach

apache-spark Interpreter java section zeppelin hadoop apache-zeppelin

apache-spark - 从 Kafka 读取消息并写入 HDFS

我正在寻找从Kafka读取消息(大量消息，每天大约100B)的最佳方式，在读取消息后我需要对数据进行操作并将其写入HDFS。如果我需要以最佳性能执行此操作，那么从Kafka读取消息并将文件写入HDFS的最佳方式是什么？哪种编程语言最适合？我是否需要考虑为此使用Spark等解决方案？最佳答案您应该为此使用Spark流(参见here)，它提供了Kafka分区和Spark分区之间的简单对应关系。或者您可以使用UseKafkaStreams(参见more)。KafkaStreams是用于构建应用程序和微服务的客户端库，其中输入和输出数据

apache-spark apache section Kafka noreferrer hadoop apache-kafka

apache-spark - Spark Streaming 创建许多小文件

我已经实现了一个SparkStreaming作业，它将过去6个月收到的事件流式传输到HDFS。它在HDFS中创建许多小文件，我希望它们的每个文件大小为HDFS的128MB(block大小)。如果我使用追加模式，所有数据都将写入一个parquet文件。如何配置Spark为每128MB数据创建一个新的HDFSparquet文件？最佳答案 Spark会在写入之前在对象上写入与分区一样多的文件。这可能真的很低效。要减少部分文件的总数，试试这个，它会检查对象的总字节大小并将其重新调整为+1最佳大小。importorg.apache.spar

apache-spark Streaming section inputDF Spark hadoop pyspark

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

我是Apache-Spark的新手。我想知道如何在ApacheSpark的MapReduce函数中重置指向Iterator的指针，这样我就写了Iterator>>iter=arg0;但它不起作用。以下是在java中实现MapReduce功能的类。classCountCandidatesimplementsSerializable,PairFlatMapFunction>>,Set,Integer>,Function2{privateList>currentCandidatesSet;publicCountCandidates(finalList>currentCandidatesSet

数上何在 String lt gt java hadoop mapreduce apache-spark hadoop-yarn

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)？publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

variables workers section 中工 String java hadoop mapreduce apache-spark

mongodb - 通过 spark-submit 将额外的 jar 传递给 Spark

我将Spark与MongoDB结合使用，因此依赖于mongo-hadoop驱动程序。多亏了对我原来问题的输入，我才开始工作here.我的Spark作业正在运行，但是，我收到了我不理解的警告。当我运行这个命令时$SPARK_HOME/bin/spark-submit--driver-class-path/usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-

spark-submit 传递 mongo-hadoop hadoop mongo mongodb jar apache-spark apache-spark-1.5

scala - Spark 中的广播变量

假设我在集群上运行了以下代码:privatedefmodifyDatasetFormat(data:String,mappings:Array[HashMap[String,Int]]):Array[Tuple2[Tuple3[Int,Int,Int],Int]]={}varmap=newHashMap[String,Int]()map+=("hello"->2)varmappings=newArray[HashMap[String,Int]])(1)mappings(0)=mapvaloriginalDataset=sc.textFile("/home/paourissi/Deskt

scala Spark section Int String hadoop apache-spark

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下？

ApacheSpark[http://spark.apache.org/]声称在内存方面比ApacheHadoop快100倍。它是如何实现这种惊人的加速的？这种加速仅适用于迭代机器学习算法还是适用于ETL(提取-转换-加载)任务，如JOIN和GROUPBY？Spark的RDD(弹性分布式数据集)和DataFrames都可以提供这种加速吗？Spark社区有针对上述部分场景的benchmark测试结果吗？最佳答案 Spark在内存中进行数据处理。不会像MapReduce那样有中间文件，所以没有I/O或者可以忽略不计。它并没有在所有情况

MapReduce hadoop section Spark li apache-spark bigdata distributed-computing

hadoop - $SPARK_HOME 中包含的 hive-site.xml 是什么样的？

我是hive的初学者，当我启动spark作业并从hive读取数据时发生了一些事情(找不到表)。我没有在$SPARK_HOME/conf中设置hive-site.xml吗？提交spark作业命令在这里bin/spark-submit--masterlocal[*]--driver-memory8g--executor-memory8g--classcom.ctrip.ml.client.Client/root/GitLab/di-ml-tool/target/di-ml-tool-1.0-SNAPSHOT.jar 最佳答案在您的Hi

中包 SPARK_HOME section hive AdminManualConfiguration-hive-sit hadoop apache-spark

82 83 848586 87 88