草庐IT

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例,上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接,但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改,所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里,但我不知道他们会这样消失。为什么会这样?

amazon-ec2 - 将新卷添加到伪分布式 Hadoop 节点无提示失败

我试图通过在hdfs-site.xml中的dfs.name.dir中添加卷的位置来向Hadoop伪分布式节点添加新卷>,我可以在这个位置看到锁定文件-但尽我所能尝试,似乎当我加载文件(使用配置单元)时,这些位置几乎没有被使用(即使锁定文件和一些子文件夹出现..所以Hadoop显然可以访问它们)。当主卷即将用完空间时,我会收到以下异常:Failedwithexceptionjava.io.IOException:File/tmp/hive-ubuntu/hive_2011-02-24_15-39-15_997_1889807000233475717/-ext-10000/test.csv

hadoop - 如何在 Windows 机器上配置 HDFS CLI?

有一个CLI工具可以直接在HDFS文件系统上使用。这是GitHubLink我使用的是Windows机器,我使用Putty终端连接集群中的HDFS。我遇到了上面的github链接,我希望HDFSCLI工具与putty集成。我确实浏览了链接,作者要求配置几个环境变量以使该工具正常工作。我对配置它们很困惑。我已经将二进制文件下载到我的Windows机器上。我应该配置Windows环境变量吗?如果我这样做,当我用来从Putty连接集群时,此更改将如何影响Putty终端。你们中的任何人都可以调查一下并详细回答以集成该工具吗?感谢您的帮助。 最佳答案

hadoop - Apache Spark Ec2 : could only be replicated to 0 nodes, 而不是 1

我有一个在Ec2d2.xlarge实例上运行的2Node集群,我有一个10Gb的文件要通过Spark处理,我在spark上安装了一个本地磁盘并在那里生成了10gb的数据集,但是当我我试图将其放入Hdfs中,它向我抛出错误"couldonlybereplicatedto0nodes,insteadof1"如下16/03/0921:44:25WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/vinit/inputfile.txtcou

jdbc - Hive JDBC 与 CLI 客户端

我需要使用Hive以编程方式访问数据(数据按每次查询GB的顺序排列)。我正在评估CLI驱动程序与HiveJDBC驱动程序。当我们使用JDBC时,thrift服务器会产生额外的开销,我想了解它有多大。如果多个客户端连接到单个节俭服务器,它也会成为单点瓶颈吗?或者人们在Hadoop上配置多个节俭服务器并做一些负载平衡是一种常见的做法吗?我正在寻找更好的性能而不是更快的原型(prototype)制作。提前致谢。 最佳答案 Shengjie的链接不起作用-这可能会正确地自动链接:http://blog.milford.io/2011/07/

hadoop - 通过 Chef 在ec2中设置ssh无密码

我在Chef中有以下recipe/default.rb:#CreateemptyRSApasswordtemplate"#{node[:cluster][:ubuntu]}/my_key.pem"dosource"keys.pem.erb"mode0400owner"ubuntu"group"ubuntu"endbash"ssh-passwordless"douser"ubuntu"cwd"#{node[:cluster][:ubuntu]}"code/tmp/tmp.pubkey;mkdir-p.ssh;touch.ssh/authorized_keys;grep#{node[:fq

hadoop - 在 AWS EC2 上扩展根分区

我创建了一个公共(public)VPC,然后向其中添加了一堆节点,以便我可以将其用于spark集群。不幸的是,它们都具有如下所示的分区设置:ec2-user@sparkslave1:lsblk/dev/xvda100G/dev/xvda15.7G/我在这些机器上设置了一个云管理器,所有节点只剩下1G空间给HDFS。如何扩展分区以占用所有100G?我尝试创建/dev/xvda2,然后创建一个卷组,将所有/dev/xvda*添加到其中,但/dev/xvda1在挂载时没有添加。在这种情况下,我无法从liveCD启动,它在AWS上。我也试过resize2fs但它说根分区已经占用了所有可用的bl

hadoop - Apache Apex CLI 命令中 Shutdown-app 和 kill-app 的区别

谁能帮我理解,ApacheAPEXCLI命令中的Shutdown-app和kill-app有什么区别? 最佳答案 Shutdown-app会调用各个Operator的tearDown()方法并等待一段时间让Operator正常关闭。然而,kill-app对所有运算符(operator)来说就像force-kill。因此,这将立即停止应用程序。但是,运营商不会有任何机会进行清理事件。在这两种情况下,YARN都会在应用关闭后释放分配给该应用的资源。 关于hadoop-ApacheApexCL

hadoop - 如何从配置单元 cli 运行配置单元脚本

我现在有配置单元脚本custsales.hql,我想从配置单元cli运行它hive(pract5)>run/user/training/hdfs_location/custsales.hql但它不执行。请指导。我知道我们可以从命令行运行它$hive-f/home/training/local_location/custsales.hql但这不是我的要求。 最佳答案 使用sourcepath/to/script命令。 关于hadoop-如何从配置单元cli运行配置单元脚本,我们在Stack

ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境?

我有这个由其他人编写的hadoop项目(链接)。我有消息来源。我想在我的集群(基本上是3台ubuntu机器)上实现它。但是提到的项目在EC2平台(使用Cloudera发行版)上运行。那么,我应该在我的系统上安装什么才能使其具有运行此类项目的软件?我想到了ClouderaManager、OracleJava。 最佳答案 如果该项目使用cloudera发行版(而不是EMR),您可以安装cloudera,它应该没问题。只有一个角落我可以预期有问题-如果s3被用作文件系统。如果该项目确实对s3有效,您有两种方法:a)尝试将s3替换为hdfs