apache-datafu

apache-spark - Spark with Hive 是否可以将项目阶段推送到 HiveTableScan？

我正在使用SparkSQL查询Hive中以ORC格式存储的数据。当我对提供给spark.sql(query)的查询运行解释命令时，我看到以下查询计划:==PhysicalPlan==*Project[col1,col2,col3]+-*Filter(....)+-HiveTableScan[col1,col2,col3,...col50]据我所知，从Hive查询所有50列，然后才在Spark中进行过滤，后记仅选择所需的实际列。是否可以将所需的列直接下推到Hive，以便它们不会一直加载到Spark？最佳答案检查以下属性是否设置为默

hadoop - Apache Hue 或 Apache Ambari - 如何手动安装和配置它们

我正在使用zookeeper、oozie、hive和hbase设置5节点hadoop2.5.1集群。我目前已经安装并运行了hadoop2和zookeeper。我想为所有服务设置某种UI管理，以便我可以监控运行状况并从中执行管理任务。我看到Ambari和Hue的所有文档分别面向Hortornworks和Cloudera。这些UI控制台是否有任何分步指南告诉我如何为我现有的hadoop服务配置它们？最佳答案 Hue有这个blogpost关于如何与任何集群集成。我们也推荐这个doc.它说的是Cloudera，但这对任何Hadoop都是相

Apache hadoop section noreferrer hadoop-yarn hue

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能，一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别？(减少相同的问题)。为简单起见，我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3)，mapO/mapT的比率始终为6.0，redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695)，map

map-reduce map 的 section Hadoop apache amazon-web-services

java - 无法找到或加载主类 org.apache.giraph.yarn.GiraphApplicationMaster

我正在尝试让Giraph在YARN集群上运行，(Hadoop2.5.2)但我是否陷入了这个错误:Couldnotfindorloadmainclassorg.apache.giraph.yarn.GiraphApplicationMaster我已经尝试了我在之前关于此主题的消息中可以找到的所有方法，但无济于事。我的命令行是这样的:hadoopjar/home/prhodes/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-2.5.2-jar-with-dependencies.jarorg.

GiraphApplicationMaster apache giraph giraph-examples examples java hadoop graph bigdata

hadoop - Apache Spark 与 Hadoop 方法有何不同？

每个人都说Spark正在使用内存，因此它比Hadoop快得多。我没有从Spark文档中理解真正的区别是什么。Spark将数据存储在内存中的什么位置，而Hadoop不存储数据？如果数据对内存来说太大了怎么办？在那种情况下，它与Hadoop有多相似？最佳答案 Spark尝试将内容保存在内存中，而MapReduce不断将内容混入和移出磁盘。中间输出存储在主内存中，而hadoop将中间结果存储在辅助内存中。MapReduce插入了barrier，把东西写到磁盘再读回来需要很长时间。因此MapReduce可能是缓慢而费力的。消除此限制使Sp

何不 hadoop Spark section MapReduce apache-spark

apache - 如何让 Mahout 推荐器工作得更快？

SO的Mahout社区您好!我有几个关于加速推荐计算的问题。在我的服务器上，我安装了没有Hadoop的Mahout。jRuby也用于推荐脚本。在数据库中，我有3k个用户和100k个项目(连接表中有270k个项目)。因此，当用户请求推荐时，简单的脚本开始工作:首先，它使用PGPoolingDataSource建立数据库连接，如下所示:connection=org.postgresql.ds.PGPoolingDataSource.new()connection.setDataSourceName("db_name");connection.setServerName("localhost

apache Mahout connection code section hadoop

java - PIG - 找到接口(interface) org.apache.hadoop.mapreduce.JobContext，但类是预期的

我试图从配置单元加载一个表。为此，我正在使用Hcatalog。我使用登录到配置单元pig-useHCatalog我从hive和hadoop导出了几乎所有的jarregister'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-exec-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-common-0.10.0-

JobContext interface localhost register 39 java hadoop hive apache-pig hcatalog

windows - 我正在尝试在 Windows 7 x64 上构建 Apache Hadoop 2.5.0，但我一直遇到未知错误

[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar(module-javadocs)onprojecthadoop-maven-plugins:MavenReportException:Errorwhilecreatingarchive:[ERROR]Exitcode:1-C:\hsc\hadoop-maven-plugins\src\main\java\org\apache\hadoop\maven\plugin\util\Exec.java:45:error:unknow

windows ERROR maven hadoop-maven-plugins apache hadoop javadoc

hadoop - java.lang.Exception : java. lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext，但类是预期的

我在使用Hadoop2.4.0和Nutch2.2时遇到了这个异常。当我尝试运行这个命令时:./hadoopjarapache-nutch-2.2.1.joborg.apache.nutch.crawl.Crawlerurls-solr//:8983-depth2我得到:Java.lang.Exception:java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.TaskAttemptContext,butclasswasexpectedatorg.apache.hadoop.ma

hadoop IncompatibleClassChangeError java apache mapreduce nutch

Apache Hbase 安装

我正在尝试在ubuntu12.04环境中安装Hbase(hbase-0.94.8)。我按照本页给出的步骤完全相同http://hbase.apache.org/book/quickstart.html我能够启动Hbase并进入shell，但是当我从shell中键入“create'test','cf'”时，抛出了以下错误hbase(main):001:0>create'test','cf'13/06/1113:01:40ERRORclient.HConnectionManager$HConnectionImplementation:Checkthevalueconfiguredin'zo

Apache Hbase 39 gt configured hadoop

150 151 152153154 155 156