草庐IT

apache-karaf

全部标签

Hadoop、 Apache 星火

我已经在Window中安装了Spark。我正在尝试从D:驱动器加载文本文件。RDD正在正常创建,但是当我对该接收错误执行任何操作时。我尝试了斜线的所有组合但没有成功scala>valfile=sc.textFile("D:\\file\\file1.txt")15/12/1607:53:51INFOMemoryStore:ensureFreeSpace(175321)calledwithcurMem=401474,maxMem=28024897515/12/1607:53:51INFOMemoryStore:Blockbroadcast_2storedasvaluesinmemory(

apache - 使用 Hadoop YARN 在本地模式下运行 Hive 查询

大多数示例使用以下命令以本地模式提及运行Hive。SETmapred.job.tracker=local但是对于YARN,当在YARN集群上运行时,我们如何在本地模式下执行Hive作业。 最佳答案 这应该适用于Yarn(我用beeline测试过):设置mapreduce.framework.name=local; 关于apache-使用HadoopYARN在本地模式下运行Hive查询,我们在StackOverflow上找到一个类似的问题: https://st

Hadoop Map Reduce 作业 : Class org. 找不到 apache.hive.hcatalog.mapreduce.HCatInputFormat

我正在使用kylin.它是一个数据仓库工具,它使用hadoop、hive和hbase。它附带示例数据,以便我们可以测试系统。我正在构建这个样本。这是一个多步骤过程,其中许多步骤都是map-reduce作业。第二步是ExtractFactTableDistinctColumns,这是一个MR作业。如果没有在hadoop日志中写入任何内容,这项工作就会失败。深入挖掘后,我在logs/userlogs/application_1450941430146_0002/container_1450941430146_0002_01_000004/syslog中发现了一个异常2015-12-2407

java - 如何使用 `org.apache.hadoop.io.Text` 创建 SequenceFiles ?

这是HadoopMapReduceV1中可用的Gridmix代码片段,但我有以下问题。他们将org.apache.hadoop.mapred.SequenceFileInputFormat和org.apache.hadoop.mapred.SequenceFileOutputFormat设置为inFormat和outFormat,它还有org.apache.hadoop.io.Text作为outKey和outValue。对我来说,这个例子似乎接受文本文件作为序列文件。如何使用org.apache.hadoop.io.Text创建SequenceFiles?WEBDATASCAN("we

hadoop - Apache Hive 安装在伪分布式或多节点集群环境

我已经在我的电脑的多节点环境中安装了hadoop,如下所示1:4个加载ubuntu(14.04)的virtualbox实例2:1-masternode2-slavenode其余vm实例作为client注意:所有4个虚拟机都在我的PC中运行我能够在上述设置上成功完成apace-2.6hadoop设置。现在我想安装hive以便进行一些数据汇总、查询和分析。但我不确定我必须如何进一步进行。我有以下几个疑问:问题1:我是否需要在所有节点(主节点/名称节点和从节点/数据节点)上安装/设置ApacheHive(0.14)?还是仅在主节点上?Q2:meta-store应该用什么模式来处理,是本地模式

hadoop - Apache 麒麟 : Intermediate table not found

我是麒麟的新手。安装后,我运行sample.sh,然后构建立方体,但得到错误消息:java.io.IOException:NoSuchObjectException(message:default.kylin_intermediate_kylin_sales_cube_desc_19700101000000_20160101000000_38b1539f_1f69_406d_89ed_96f3ca776841tablenotfound)atorg.apache.hive.hcatalog.mapreduce.HCatInputFormat.setInput(HCatInputForma

Hadoop 2.7.2 - 错误 : Could not find or load main class org. apache.hadoop.hdfs.server.namenode.NameNode

我是新手,我正在尝试找到解决这个问题的方法。为了在Ubuntu15.10上设置Hadoop2.7.2http://idroot.net/tutorials/how-to-install-apache-hadoop-on-ubuntu-14-04/当我启动“hdfsnamenode格式”时,我继续收到此错误错误:无法找到或加载主类org.apache.hadoop.hdfs.server.namenode.NameNode这是bashrc内容exportJAVA_HOME=/usr/lib/jvm/java-8-oracleexportHADOOP_INSTALL=/usr/local/

performance - Apache Spark 分布式环境调优

我会在分布式环境中最大限度地提高Hadoop性能(使用ApacheSpark和Yarn)并且我正在遵循blogpostofCloudera上的提示使用此配置:6nodes,16core/node,ram64G/node建议的解决方案是:--num-executors17--executor-cores5--executor-memory19G但我不明白为什么他们使用17个num执行器(换句话说每个节点3个执行器)。我们的配置是:8nodes,8core/node,ram8G/node什么是最好的解决方案? 最佳答案 你的内存很低。我

apache - Hadoop、HBase 和 Apache Nutch 兼容版本

HBase和Nutch。我正在尝试将这3个集成在一起,但遇到了兼容性问题。我想知道是否有人知道我可以一起使用哪些最新版本的Hadoop、HBase和Nutch。非常感谢任何见解非常感谢! 最佳答案 您现在可以拥有的最新兼容版本是:坚果2.3.1hbase0.98.17-hadoop2hadoop2.5.2来源:nutchnews. 关于apache-Hadoop、HBase和ApacheNutch兼容版本,我们在StackOverflow上找到一个类似的问题:

java - Apache Groa 找不到主类错误

当我尝试使用./goragoracompiler运行apachegora编译器时,出现以下错误错误:无法找到或加载主类org.apache.gora.compiler.cli.GoraCompilerCLI在此之前我收到JAVA_HOMEnotset错误,之后我通过设置JAVA_HOME变量解决了该错误操作系统:CentOS6.5Java版本:Java版本“1.7.0_45”OpenJDK运行时环境(rhel-2.4.3.3.el6-x86_64u45-b15)OpenJDK64位服务器VM(构建24.45-b08,混合模式) 最佳答案