sparking

hadoop - 如何在多节点 Hadoop 集群上设置 Spark？

我想在多节点集群上安装HadoopHDFS和Spark。我能够在多节点集群上成功安装和配置Hadoop。我还在主节点上安装并配置了Spark。我怀疑我是否也必须在从站中配置spark？最佳答案 IhavedoubtthatIhavetoconfigurethesparkinslavesaswell?你不应该。你完成了。您所做的比将Spark应用程序提交到HadoopYARN(我总结是集群管理器)所做的更多。Spark是一个用于对海量数据集进行分布式计算的库，因此它仅属于您的Spark应用程序(而不是您可能使用的任何集群)。是时候s

何在 hadoop section Spark apache-spark hdfs

hadoop - Kryos/Java 序列化程序的 Spark-shell --conf 选项

我需要使用sparkhelppage中提到的registerKryoClasses方法启动带有自定义类的sparkshell.现在如页面中所述，我无法在启动sparkshell后重新创建sc变量，因此需要在启动spark-shell命令时提供选项--conf。--conf的选项值应该是什么，以便它等同于以下更新:conf.registerKryoClasses(Array(classOf[ArrayBuffer[String]],classOf[ListBuffer[String]])) 最佳答案使用Javaserializer而

Spark-shell hadoop section spark conf apache-spark apache-spark-mllib

hadoop - 使用 Spark JDBC 指定 jceks 文件

我正在尝试通过sqlContext.read.format("json")方法连接到Oracle。一切顺利，但在创建JDBC字符串时，我必须在字符串中指定数据库的用户名和密码:valjdbcString="jdbc:oracle:thin:USERNAME/PASSWORD@//HOSTNAME:PORT/SID"但是，我在HDFS上确实有一个包含密码的jceks文件。我想知道是否有任何方法可以利用该文件连接到JDBC而不是纯文本密码？就像在Sqoop中一样，我们可以这样做:sqoopimport-Dhadoop.security.credential.provider.path=jc

hadoop Spark code section CredentialProviderFactory apache-spark jdbc apache-spark-sql

python - 与 Spark 交互的 REST API

我正在尝试将我的Spark上下文与RESTAPI连接起来。所以我的流程是这样的，我将请求从我的UI-nodejs发送到RESTAPI，它需要与包含所需响应的spark上下文(Spark作业在配置单元表之上工作)进行交互，并将其发送回UI以供显示。有什么办法可以做到这一点？用户界面RESTAPISpark(HDFS) 最佳答案您可以使用ApacheLivy.它是专门为这个用例设计的。我们过去曾用它来控制Spark集群上的批处理和常规作业。关于python-与Spark交互的RESTAP

python Spark section REST node.js hadoop apache-spark

apache-spark - 使用 Hive 时了解 HDFS 中的文件分布和分区

一方面，在HDFS文档中他们说:HDFSisdesignedtosupportverylargefiles.ApplicationsthatarecompatiblewithHDFSarethosethatdealwithlargedatasets.Theseapplicationswritetheirdataonlyoncebuttheyreaditoneormoretimesandrequirethesereadstobesatisfiedatstreamingspeeds.HDFSsupportswrite-once-read-manysemanticsonfiles.Atypi

apache-spark apache code HDFS section hadoop hive bigdata

scala - 在 Spark 中加入两个 HDFS 文件

我想使用sparkshell连接来自HDFS的两个文件。这两个文件都是制表符分隔的，我想加入第二列尝试过的代码但不给出任何输出valny_daily=sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock/NYSE_daily"))valny_daily_split=ny_daily.map(line=>line.split('\t'))valenKeyValuePair=ny_daily_split.map(line=>(line(0).substring(0,5),line(3).toInt))valny_divid

中加 scala line enKeyValuePair code hadoop apache-spark

Hadoop Spark (Mapr) - AddFile 它是如何工作的

我想了解hadoop是如何工作的。假设我在hdfs上有10个目录，它包含100个我想用spark处理的文件。在书中-使用Spark进行快速数据处理这要求文件在集群中的所有节点上都可用，这并不是什么大问题本地模式的问题。在分布式模式下，你会想要使用Spark的addFile功能，用于将文件复制到集群中的所有机器。我无法理解这一点，将在每个节点上创建文件副本。我想要的是它应该读取该目录中存在的文件(如果该目录存在于该节点上)抱歉，我有点困惑，如何在spark中处理上述情况。问候最佳答案 Thesectionyou'rereferrin

AddFile Hadoop 20 code section apache-spark

hadoop - Spark groupByKey 说明

我正在尝试处理一些数据并以这样的方式写入输出，即结果按键分区，并按另一个参数排序-比如ASC。例如，>>>data=sc.parallelize(range(10000))>>>mapped=data.map(lambdax:(x%2,x))>>>grouped=mapped.groupByKey().partitionBy(2).map(lambdax:x[1]).saveAsTextFile("mymr-output")$hadoopfs-catmymr-output/part-00000|cut-c1-1000[0,2,4,6,8,10,12,14,16,18,20,22,24,

groupByKey hadoop code section apache-spark

hadoop - 我在哪里运行 spark - 独立、Hadoop 或 Mesos

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行是否有任何性能提升？现在，我在4节点集群上独立运行。有经验的用户可以在这里提供一些指导吗？最佳答案根据您的用例的详细信息，您可能会发现与其他配置相比，任何给定配置的性能都有所起伏。然而，Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多，例如:哈多普HDFS作为弹性分布式文件存储。使用Hadoop中现有的元数据访问数据集，例如通过HiveContext将Spark处理与

hadoop section Mesos apache-spark hadoop-yarn

scala - 在 Spark 中保存文件

对RDD的保存有两个操作。一个是saveAsTextFile，另一个是saveAsObjectFile。我理解saveAsTextFile，但不理解saveAsObjectFile。我是Spark和scala的新手，因此我对saveAsObjectFile感到好奇。1)它是来自Hadoop的序列文件还是其他东西？2)我可以使用MapReduce读取那些使用saveAsObjectFile生成的文件吗？如果是，如何？最佳答案 saveAsTextFile()-将RDD保存为压缩文本文件，使用元素的字符串表示。它利用Hadoop的Te

scala Spark section code saveAsObjectFile hadoop apache-spark

228 229 230231232 233 234