主键Spark

hadoop - 给定 --driver-class-path 时，spark 找不到 spark-class-launcher-output 文件

我正在尝试让spark与aws一起玩得开心。在Windows环境中工作。无论我尝试过哪些选项，都永远找不到NativeS3类。目前，如果我使用:spark-shell--packagescom.amazonaws:aws-java-sdk-s3:1.10.38,com.amazonaws:aws-java-sdk-core:1.10.38,org.apache。hadoop:hadoop-aws:2.7.1作为我的命令，然后我将下载文件并可以使用s3，但是感觉很老套，每次下载它们都不理想。在另一个人的帮助下，我一直在尝试其他选项，结果是:>spark-shell--driver-cla

python - 从发送到 spark-submit 的外部 main 文件修改 SparkContext

我正在尝试打包python依赖项，以便使用spark-submit发送到hadoop集群，我希望尽可能以DRYest方式执行此操作。我希望我的my_spark_app.py看起来像这样:frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName('MyApp').setMaster('yarn-client')sc=SparkContext(conf=conf)sc.addPyFile('/path/to/dependencies.py')fromdependenciesimportDependencyManag

SparkContext spark-submit dateutil code Adding python hadoop apache-spark pyspark

hadoop - Phoenix 中的主键如何转换为 hbase 中的行键

凤凰查询:CREATETABLESTORE.DETAILS(MarketUNSIGNED_INTNOTNULL,ProductUNSIGNED_INTNOTNULL,PeriodUNSIGNED_INTNOTNULL,UnitsdoubleCONSTRAINTpkPRIMARYKEY(Market_Key,Product_Key,Period_Key))在hbase中，我只有两列，我希望将主键组合转换为行键。能否请您告诉我主键在Phoenix中是如何组合并转换为行键的？最佳答案是的，主键被视为行键，当您有多个列作为主键时，pho

Phoenix hadoop section UNSIGNED_INT UNSIGNED hbase apache-phoenix bigdata

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如；explode)吗？表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

scala code example 34 hadoop apache-spark hive apache-spark-sql

hadoop - 检查点在 Apache Spark 上有什么作用？

检查点对ApacheSpark有什么作用，它对RAM或CPU有何影响？最佳答案来自ApacheStreamingDocumentation-希望对您有所帮助:流式应用程序必须24/7全天候运行，因此必须能够应对与应用程序逻辑无关的故障(例如，系统故障、JVM崩溃等)。为了使这成为可能，SparkStreaming需要将足够的信息检查点到容错存储系统，以便它可以从故障中恢复。有两种类型的数据被检查点。元数据检查点-定义信息的保存将计算流式传输到HDFS等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。

hadoop Apache section 的 li apache-spark pyspark checkpointing

hadoop - Bluemix Spark 和 Hadoop 服务配置

在Bluemix上运行HadoopBigInsights和ApacheSpark服务的配置后，我注意到Hadoop的可配置性很强。我可以选择集群中将有多少个节点以及这些节点的RAM和CPU内核节点以及硬盘空间但Spark服务似乎不太可配置。我唯一的选择是在2到30个Spark执行器之间进行选择。作为IBMIC4项目的一部分，我正在使用Bluemix来评估这些服务，因此我对此有几个问题。Spark服务是否可以像Hadoop服务一样配置？即选择节点、节点的RAM、CPU内核等。在此上下文中什么是Spark执行器？他们是节点吗？如果有，它们的规范是什么？future有计划改进Spark的配置

服务配置 Bluemix Spark section 的 hadoop apache-spark ibm-cloud

maven - Apache Spark 依赖问题

我正在尝试在Hadoop集群中运行我的spark应用程序。集群中运行的spark版本为1.3.1。在集群中打包和运行我的spark应用程序时，出现如下错误。我也查看了其他帖子，好像我搞砸了库依赖项，但无法弄清楚是什么!以下是可能对你们帮助我有帮助的其他信息:hadoop-版本:Hadoop2.7.1.2.3.0.0-2557Subversiongit@github.com:hortonworks/hadoop.git-r9f17d40a0f2046d217b2bff90ad6e2fc7e41f5e1Compiledbyjenkinson2015-07-14T13:08ZCompiled

Apache maven gt lt spark hadoop apache-spark apache-spark-sql

hadoop - 文本文件可以直接从 Spark 输出到本地文件系统吗？

使用RDD，我可以输出rdd.saveAsTextFile('directory')将文件保存在hdfs://directory中。文本文件可以直接保存到本地文件系统上的目录(即directory)吗？最佳答案当然你可以...因为saveAsTextFile('directory')将保存与你的分区程序一样多的文件，你首先需要在复制到本地之前合并文件(除非你希望将每个文件复制到本地).因此先调用FileUtil.copyMerge(sourceFileSystem,newPath(sourceFullPath),destFile

本文 hadoop section code directory apache-spark pyspark

windows - Spark Windows 安装 Java 报错

我继续上一个问题的问题-winutilssparkwindowsinstallation-我知道这个线程-HowtostartSparkapplicationsonWindows(akaWhySparkfailswithNullPointerException)?-，但我还没有找到任何可以解决我的问题的方法。我也知道有人建议使用maven或sbt从源代码构建spark。我还不想这样做，因为很多人不会从源代码构建spark并且它对他们来说很好用。到目前为止，我已经设置了以下环境变量...set_JAVA_OPTIONS=-Xmx512M-Xms512Mset_JAVA_OPTION=-X

windows spark apache scala hadoop apache-spark environment-variables read-eval-print-loop

database - Spark 中的快速条件加入

我正在尝试使用条件查询在Spark中进行快速扩充。我有两个键/值数据集:“事件数据”和“session映射”。“session映射”用于找出谁在两个时间戳之间使用给定的IP。“事件数据”是大量事件的集合，具有IP和时间戳，需要与“session映射”相关联以丰富用户名。是否有一种有效的方法可以根据Spark中的session映射或其他方式丰富事件数据？sessionmap:(IP,start_time,end_time)->Name(192.168.0.l,2016-01-0110:00:00,2016-01-0122:00:00)->John(192.168.0.l,2016-01-

database Spark 01 2016 section hadoop join apache-spark mapreduce

60 61 626364 65 66