$Spark

hadoop - Hadoop 可以访问 S3 文件，但 Spark 不能

我在一台EC2机器上运行Spark1.4和Hadoop2.6。我配置了HADOOP_CLASSPATH和core-site.xml以访问我的S3文件。虽然Hadoop能够访问我存储桶中的文件，但spark-shell失败并抛出以下错误:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3native.NativeS3FileSystemnotfound我尝试将awsjar添加到类路径中，但没有任何帮助。有人知道这可能来自哪里吗？谢谢!

hadoop - 如何在资源有限的笔记本电脑上安装 pyspark 和 spark 以供学习？

我有一台配备6GBRAM的Windows7笔记本电脑。仅出于学习目的，在此笔记本电脑上安装pyspark和spark的RAM/资源效率最高的方法是什么。我不想处理实际的大数据，但小数据集是理想的，因为这通常只是为了学习pyspark和spark。我更喜欢最新版本的Spark。仅供引用:我没有安装hadoop。谢谢最佳答案你基本上有三个选择:从源代码构建一切安装Virtualbox并使用ClouderaQuickstart等预构建的VM安装Docker并找到合适的容器当您选择从源代码构建时，让一切都启动并运行可能会很痛苦。你必须安

何在 pyspark section https hadoop apache-spark bigdata

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

hadoop - 带有序列文件的 Spark RDD take()

看起来RDD.take()只是在序列文件的支持下重复读取的最后一个元素。例如:valrdd=sc.sequenceFile("records.seq",classOf[LongWritable],classOf[RecordWritable])valrecords:Array[(LongWritable,RecordWritable)]=rdd.take(5)System.out.println(records.map(_._2.toString).mkString("\n"))输出:Record(3.1,2.5)Record(3.1,2.5)Record(3.1,2.5)Record

列文有序 code section strong hadoop apache-spark sequencefile

hadoop - 给定 --driver-class-path 时，spark 找不到 spark-class-launcher-output 文件

我正在尝试让spark与aws一起玩得开心。在Windows环境中工作。无论我尝试过哪些选项，都永远找不到NativeS3类。目前，如果我使用:spark-shell--packagescom.amazonaws:aws-java-sdk-s3:1.10.38,com.amazonaws:aws-java-sdk-core:1.10.38,org.apache。hadoop:hadoop-aws:2.7.1作为我的命令，然后我将下载文件并可以使用s3，但是感觉很老套，每次下载它们都不理想。在另一个人的帮助下，我一直在尝试其他选项，结果是:>spark-shell--driver-cla

spark-class-launcher-output class hadoop spark code amazon-web-services amazon-s3 apache-spark

python - 从发送到 spark-submit 的外部 main 文件修改 SparkContext

我正在尝试打包python依赖项，以便使用spark-submit发送到hadoop集群，我希望尽可能以DRYest方式执行此操作。我希望我的my_spark_app.py看起来像这样:frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName('MyApp').setMaster('yarn-client')sc=SparkContext(conf=conf)sc.addPyFile('/path/to/dependencies.py')fromdependenciesimportDependencyManag

SparkContext spark-submit dateutil code Adding python hadoop apache-spark pyspark

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如；explode)吗？表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

scala code example 34 hadoop apache-spark hive apache-spark-sql

hadoop - 检查点在 Apache Spark 上有什么作用？

检查点对ApacheSpark有什么作用，它对RAM或CPU有何影响？最佳答案来自ApacheStreamingDocumentation-希望对您有所帮助:流式应用程序必须24/7全天候运行，因此必须能够应对与应用程序逻辑无关的故障(例如，系统故障、JVM崩溃等)。为了使这成为可能，SparkStreaming需要将足够的信息检查点到容错存储系统，以便它可以从故障中恢复。有两种类型的数据被检查点。元数据检查点-定义信息的保存将计算流式传输到HDFS等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。

hadoop Apache section 的 li apache-spark pyspark checkpointing

hadoop - Bluemix Spark 和 Hadoop 服务配置

在Bluemix上运行HadoopBigInsights和ApacheSpark服务的配置后，我注意到Hadoop的可配置性很强。我可以选择集群中将有多少个节点以及这些节点的RAM和CPU内核节点以及硬盘空间但Spark服务似乎不太可配置。我唯一的选择是在2到30个Spark执行器之间进行选择。作为IBMIC4项目的一部分，我正在使用Bluemix来评估这些服务，因此我对此有几个问题。Spark服务是否可以像Hadoop服务一样配置？即选择节点、节点的RAM、CPU内核等。在此上下文中什么是Spark执行器？他们是节点吗？如果有，它们的规范是什么？future有计划改进Spark的配置

服务配置 Bluemix Spark section 的 hadoop apache-spark ibm-cloud

maven - Apache Spark 依赖问题

我正在尝试在Hadoop集群中运行我的spark应用程序。集群中运行的spark版本为1.3.1。在集群中打包和运行我的spark应用程序时，出现如下错误。我也查看了其他帖子，好像我搞砸了库依赖项，但无法弄清楚是什么!以下是可能对你们帮助我有帮助的其他信息:hadoop-版本:Hadoop2.7.1.2.3.0.0-2557Subversiongit@github.com:hortonworks/hadoop.git-r9f17d40a0f2046d217b2bff90ad6e2fc7e41f5e1Compiledbyjenkinson2015-07-14T13:08ZCompiled

Apache maven gt lt spark hadoop apache-spark apache-spark-sql

51 52 535455 56 57