草庐IT

java - 我需要 Java 才能在 Amazon EC2 中运行 hadoop 吗?

我需要学习Java才能在AmazonEC2中运行hadoop吗?我是一名PHP/C++开发人员,没有Java经验。正计划在亚马逊云中设置hadoop集群。hive/pig是否足够或者我需要java? 最佳答案 鉴于Hadoop本身是用Java编写的,了解Java会有所帮助,但如果您只是简单地设置它并且可以通过使用HIVE或PIG来完成,那么您实际上并不需要了解Java编程。如果这只是为了熟悉Hadoop,那么该策略可能会奏效,但如果您想投入生产,那么您将需要对JVM的工作原理等有一定的了解。不过,您可能不需要使用Java编写代码。

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择? 最佳答案 对于0.7.1,您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。 关于hadoop-配置单元cli中的"Add",我们在StackOverflow上找到一个类似的问题:

linux - 如何在 AWS ec 虚拟机上使用 hadoop 1.0 配置高可用性

我已经在非VM设置上使用心跳和虚拟IP机制配置了此设置。我正在使用hadoop1.0.3并使用共享目录进行Namenode元数据共享。问题是,在亚马逊云上,没有什么能像虚拟Ip那样使用Linux-ha获得高可用性。有没有人能做到这一点。请让我知道所需的步骤? 最佳答案 现在我在hbase上使用Hbase复制WAL。0.92以后的Hbase支持这个。对于云上的hadoop集群,我会等待2.0版本稳定。使用了以下内容http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/repli

hadoop - 如何在cloudera上通过CLI连接到hive

我们从HUE运行CDH4.1.1/BeeswaxHive运行良好,/beeswax/tables显示所有表。我想使用hiveCLI列出所有表:overlord@overlord-datanode1:~$hiveLogginginitializedusingconfigurationinfile:/etc/hive/conf.dist/hive-log4j.propertiesHivehistoryfile=/tmp/overlord/hive_job_log_overlord_201211280646_1426149164.txthive>SHOWTABLES;OKTimetaken:

hadoop - 从不同目录调用 hive cli 时找不到表

我遇到了Hive表的一个奇怪问题。我在环境中设置了HIVE_HOME,它也在我的搜索路径中,因此我可以直接调用hive。现在我从一个目录调用hive让我们说/a/b/c并创建一些表。我可以看到表格。现在我切换到一个目录,例如/a/b并从那里调用hive。这是问题部分。要么我看不到表格,要么我得到这个错误hive>showtables;FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'metastore_db',seethenextexceptionfordetails.Ne

configuration - 在 ec2 上手动配置 hadoop

谁能给我指出任何资源的方向,这些资源可以帮助我在EC2上手动设置/配置Hadoop(1.0.4)。我同意有很多资源可以使用工具、服务等来完成这项工作,但我正在寻找的是一些帮助,以确定对conf/*.xml文件进行哪些修改手动slaves和master都是为了让Hadoop正常工作。现在,我有5个ec2实例在运行,它们都能够在伪分布式模式下单独运行hadoop作业。所以,我需要通过配置conf文件的方式,将一个变成master,其余的变成slave,让slave知道namenode和jobtracker在哪里,而master知道所有的slave。我的理解是,我还必须配置实例的EC2安全组

java - 开始使用最新版本的 hadoop 和 ec2

我正在关注HadoopinAction开始使用ec2的hadoop。我在ubuntu上运行并下载并安装了最新版本的Hadoop。我遇到了这个命令的障碍:hadoop-ec2launch-clustermycluster2Thebooksays"TheHadoopEC2toolsareinthedirectorysrc/contrib/ec2/binunderyourHadoopinstallation.Recallthatourec2-init.shscripthasalreadyaddedthatdirectorytoyoursystemPATH.Withinthatdirector

hadoop - Hortonworks HDP ambari AWS EC2 心跳丢失

在AWSEC2上成功部署HDP集群。重启HDP集群节点后,ambari服务器的心跳丢失,因为所有公共(public)和私有(private)IP以及DNS都已更改。在ambari服务器中我们可以在哪里配置新的IP或DNS?? 最佳答案 首先,Ambari要求所有节点都有FQHN。最佳做法是在所有节点上分配正确的主机名。在您的Ambari服务器上恢复心跳的一个简单的方法是在您的所有客户端节点上运行以下命令:sudoambari-agentrestartyour_ambari.server.hostname.com它在Ambari2.0

hadoop - SequenceFile 作为带有自定义类的文本 CLI

我有一个SequenceFile格式的HDFS文件。键是Text,值是自定义可序列化类(例如)MyCustomClass。我想通过hadoopfs-text命令读取此文件,但它失败了,因为hadoop不知道MyCustomClass定义是什么。我也尝试了hdfsdfs-text命令,但得到了相同的响应。使用hadoop2。有没有一种方法可以指定类(例如通过jar,如-cpmyjar.jar选项)? 最佳答案 您可以使用-libjars添加包含自定义可写类的jar.例如:hadoopfs-libjars.jar-text

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序,它使用spark-submit在我的笔记本电脑上运行正常。但是,当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass