$Spark

hadoop - Hadoop/Spark 生态系统中的数据移动

我有一个基本问题，我希望能更好地理解它:背景假设我有一个巨大的CSV文件(50GB)，我想将其提供给数据科学团队进行分析。理想情况下，团队中的每个成员都能够使用他们选择的语言与数据进行交互，数据不需要经常移动(考虑到它的大小)并且所有人都可以灵活地访问计算资源。建议的解决方案ApacheSpark似乎是满足上述要求的解决方案的当前领先者。Scala、Python、SQL和R都能够在灵活的计算资源之上(如果利用DataBricks、Azure、AWS、Cloudera等云提供商)访问其所在位置的数据。问题以MicrosoftAzure/HDInsight域为例。假设我们要将这个大型CSV

hadoop - Spark parquet 数据帧分区数

我有一个HDFS文件夹，其中包含两个250MB的Parquet文件。hadoopdfblock大小设置为128MB。具有以下代码:JavaSparkContextsparkContext=newJavaSparkContext();SQLContextsqlContext=newSQLContext(sparkContext);DataFramedataFrame=sqlContext.read().parquet("hdfs:////user/test/parquet-folder");LOGGER.info("Nr.ofrddpartitions:{}",dataFrame.rdd

parquet hadoop section strong apache-spark spark-dataframe

hadoop - 如何修复 Spark Streaming 中的数据局部性？

Spark版本:1.6.2Spark配置:执行者:18每个执行器的内存:30g核心x执行器:2卡夫卡配置:分区:18上下文:我有一个Spark流管道，它使用Kafka的新直接方法而不是接收器。此管道从kafka接收数据，转换数据并插入到Hive。我们宣布用作插入数据操作的触发器的位置级别等于RACK_LOCAL，而不是PROCESS_LOCAL或NODE_LOCAL。此外，输入大小列显示网络信息而不是内存。我已经设置了配置变量spark.locality.wait=30s来测试spark是否等待足够长的时间来选择最佳的局部模式，但没有显示任何改进。考虑到kafkapartitions=

Streaming hadoop strong code section apache-spark spark-streaming

hadoop - 使用 Hive on spark 将数据从 gzip 格式转换为 sequenceFile 格式

I'mtryingtoreadalargegzipfileintohivethroughsparkruntimetoconvertintoSequenceFileformat而且，我想高效地做到这一点。据我所知，Spark只支持每个gzip文件一个映射器，就像它对文本文件一样。有没有办法改变正在读取的gzip文件的映射器数量？还是我应该选择另一种格式，如Parquet？我现在卡住了。问题是我的日志文件是类似json的数据，保存为txt格式，然后进行gzip压缩，所以为了阅读，我使用了org.apache.spark.sql.json。我看到的示例显示-将数据转换为SequenceFil

sequenceFile hadoop 射器 section table apache-spark hive pyspark

apache-spark - Apache Zeppelin + Spark 的按需用户集群？

我们使用cloudera来部署一个zeppelin-spark-yarn-hdfs集群。现在，只有一个zeppelin和spark实例，所有sparknotebook的执行都会影响到每个用户。例如，如果我们停止用户笔记本中的spark上下文，它会影响所有其他用户的笔记本。我已经看到zeppelin中有一个选项可以隔离解释器，但是有没有办法根据需要为每个用户提供自己的“集群”？也许使用Docker并使用zeppelin和spark为每个用户构建一个图像，并将他们的资源限制为用户集群提供的资源？我完全不知道如何实现它，或者它是否可能，但我的理想场景是像数据block那样的方法。在那里你可以

需用 apache-spark Zeppelin section spark hadoop hadoop-yarn cloudera apache-zeppelin

hadoop - 无法启动 apache.spark.master

每当我在本地机器上运行start-master.sh命令时，我都会收到以下错误，请有人帮我解决这个问题终端错误终端报错startingorg.apache.spark.deploy.master.Master,loggingto/usr/local/spark-2.0.1-bin-hadoop2.6/logs/spark-andani-org.apache.spark.deploy.master.Master-1-andani.sakha.com.outfailedtolaunchorg.apache.spark.deploy.master.Master:atio.netty.util

hadoop apache java SingleThreadEventExecutor netty apache-spark pyspark bigdata

hadoop - 从另一个运行 Spark 的 Docker 容器写入在 Docker 中运行的 HDFS

我有一个spark+jupyter的docker镜像(https://github.com/zipfian/spark-install)我有另一个hadoop的docker镜像。(https://github.com/kiwenlau/hadoop-cluster-docker)我在Ubuntu中运行来自上述2个图像的2个容器。对于第一个容器:我能够成功启动jupyter并运行python代码:importpysparksc=pyspark.sparkcontext('local[*]')rdd=sc.parallelize(range(1000))rdd.takeSample(Fal

中运 Docker 容器 code hadoop apache-spark hdfs

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器，它在端口8998上运行良好，但curl请求给出以下错误，curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层？

apache-spark Kerberos section strong 票证 hadoop cloudera livy

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码，但是当我尝试使用下面的命令在Windows中从CMD运行它时，它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

java ClassNotFoundException gt lt SparkSubmit scala apache-spark hadoop

apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处？

我正在设置一个Hadoop集群用于测试/PoC目的。今天有什么不能用Spark作为处理引擎来完成的吗？在我看来，Spark已经取代了MR，并且围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制？据我了解，即使对于批处理作业，Spark至少与MR一样快，如果您想在未来扩展您的用例(流式处理)，那么无论如何您都需要适应Spark。我问这个问题是因为直到今天，大多数介绍和教程都在教您有关Hadoop和MapReduce的知识。最佳答案很简单，不，现

apache-spark MapReduce section Spark hadoop

67 68 697071 72 73