apache-spark-1.3

apache-spark - 用于 ETL 的 Impala shell 或 Spark？

我最近开始研究Hadoop环境。我需要做一些基本的ETL来填充几个表。目前，我正在使用sqoop将数据导入Hadoop，并使用Impalashell命令编写用于转换的SQL查询。但最近我经常听说Spark。在我的情况下，用Spark而不是Impalashell编写ETL会有什么优势吗？谢谢S 最佳答案过去，许多人使用A)SQL脚本(如Impala)和UNIX脚本，或者使用B)ETL工具进行ETL。但是，问题是1)更大规模imo和2)技术标准化。既然都在用Spark，那为什么不在Spark上做标准化呢？我经历过这个周期，使用Spar

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如，我正在使用以下代码将数据写入hdfs，valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构，path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark，有没有办法将所有

String scala country state path apache-spark hadoop hdfs

apache-spark - Spark with Hive 是否可以将项目阶段推送到 HiveTableScan？

我正在使用SparkSQL查询Hive中以ORC格式存储的数据。当我对提供给spark.sql(query)的查询运行解释命令时，我看到以下查询计划:==PhysicalPlan==*Project[col1,col2,col3]+-*Filter(....)+-HiveTableScan[col1,col2,col3,...col50]据我所知，从Hive查询所有50列，然后才在Spark中进行过滤，后记仅选择所需的实际列。是否可以将所需的列直接下推到Hive，以便它们不会一直加载到Spark？最佳答案检查以下属性是否设置为默

HiveTableScan apache-spark code date transaction_date hadoop hive apache-spark-sql apache-spark-dataset

scala - 在scala spark中将文件读入数组列表

我对spark和scala完全陌生。我想将文件读入数组列表。这就是它在java中的实现方式。ListsourceRecords;sourceRecords=newArrayList();BufferedReaderSW;SW=newBufferedReader(newFileReader(srcpath[0].toString()));Stringsrcline;while((srcline=SW.readLine())!=null){sourceRecords.add(srcline.toString());}spark中的scala怎么实现最佳答案

读入 scala code section sourceRecords hadoop apache-spark

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后，它只注册了1个执行器，并为其分配了一些默认

SPARK SPARK_EXECUTOR_INSTANCES code Dspark scala hadoop apache-spark hadoop-yarn

hadoop - Apache Hue 或 Apache Ambari - 如何手动安装和配置它们

我正在使用zookeeper、oozie、hive和hbase设置5节点hadoop2.5.1集群。我目前已经安装并运行了hadoop2和zookeeper。我想为所有服务设置某种UI管理，以便我可以监控运行状况并从中执行管理任务。我看到Ambari和Hue的所有文档分别面向Hortornworks和Cloudera。这些UI控制台是否有任何分步指南告诉我如何为我现有的hadoop服务配置它们？最佳答案 Hue有这个blogpost关于如何与任何集群集成。我们也推荐这个doc.它说的是Cloudera，但这对任何Hadoop都是相

Apache hadoop section noreferrer hadoop-yarn hue

hadoop - 使用 Spark 读取 S3 文件时出现 NullPointerException

我正在尝试使用Spark读取S3文件并出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:433)atorg.apache.hadoop.fs.Globber.getFileStatus(Globber.java:57)atorg.apache.hadoop.fs.Globber.glob(Globber.java:248)atorg.apache.hadoop.fs.FileSystem

时出 NullPointerException apache scala spark hadoop amazon-s3 apache-spark

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能，一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别？(减少相同的问题)。为简单起见，我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3)，mapO/mapT的比率始终为6.0，redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695)，map

map-reduce map 的 section Hadoop apache amazon-web-services

java - 无法找到或加载主类 org.apache.giraph.yarn.GiraphApplicationMaster

我正在尝试让Giraph在YARN集群上运行，(Hadoop2.5.2)但我是否陷入了这个错误:Couldnotfindorloadmainclassorg.apache.giraph.yarn.GiraphApplicationMaster我已经尝试了我在之前关于此主题的消息中可以找到的所有方法，但无济于事。我的命令行是这样的:hadoopjar/home/prhodes/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-2.5.2-jar-with-dependencies.jarorg.

GiraphApplicationMaster apache giraph giraph-examples examples java hadoop graph bigdata

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

hadoop Memory accumulableCollection code bytes apache-spark hdfs