集群NoSQL

java - 使用 hadoop-2.4.0 和 cygwin 的单节点集群设置

我尝试使用cygwin在hadoop-2.4.0中设置单节点集群，但它不起作用，而我给出的声明如下:bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jargrepinputoutput'dfs[a-z.]+'然后我收到如下错误:bin/hadoop:line133:/cygdrive/c/ProgramFiles/Java/jdk1.5.0_05;/bin/java:Nosuchfileordirectorybin/hadoop:line133:exec:/cygdrive/c/ProgramFil

hadoop - 在 hadoop 集群之间传输数据

我想在位于不同服务器上的2个hadoop集群之间传输数据。来源:hadoop版本Hadoop2.0.0-cdh4.3.1目的地:hadoop版本Hadoop2.0.0-cdh4.3.1我在源代码中有一个目录:hadoopfs-ls/bid_data/foo我在目的地有一个目录:hadoopfs-ls/bid_data我想在另一个集群中复制/bid_data/foo目录及其在/bid_data中的内容谢谢，里约=更新:以下是我在使用以下命令时收到的错误消息:是否是防火墙问题？目标集群不对外开放，这意味着我需要VPN才能访问局域网之外的目标集群。hadoopdistcphdfs://nn1

hadoop 在 apache java

HDFS完全分布式集群搭建与配置

HDFS完全分布式集群搭建与配置介绍HDFS前言HDFS的概念和特性整体思路准备工作配置过程三台虚拟机都已经完成的步骤hadoop-env.shyarn-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlslaves同步配置环境变量启动集群hdfs常用命令测试注意事项介绍HDFS的组成架构架构介绍：1>NameNode(nn):就是Master，它是一个主管、管理者（1）管理HDFS的名称空间；（2）配置副本策略；（3）管理数据块（block）映射信息；（4）处理客户端读写请求2>DataNode:就是Slave。NameN

HDFS 完全 span class operator hadoop 分布式

hadoop - 在 hadoop 2.4 中使用 yarn 在集群模式下运行 Spark 时出现 InvalidResourceRequestException Yarn Exception

使用Apachespark1.1.0和hadoop2.4另外，我的集群在CDH5.1.3上我尝试使用以下命令启动sparkwithyarn。./spark-shell--masteryarn./spark-shell--masteryarn-client我得到以下异常:14/10/1521:33:32INFOcluster.YarnClientSchedulerBackend:ApplicationreportfromASM:appMasterRpcPort:0appStartTime:1413388999108yarnAppState:RUNNING14/10/1521:33:44E

时出 hadoop apache java bigdata apache-spark hadoop-yarn

hadoop - 如何将 Pig 存储位置设置为另一个 hadoop 集群

我正在通过RESTAPI运行PigScript，我想将我的Pig输出存储到另一个hadoop集群。有什么方法可以将PigStorage设置为其他一些hdfs。最佳答案您可以使用distcp从一个hdfs复制到另一个。distcp用于将大量数据并行复制到hadoop文件系统或从中复制。$hadoopdistcphdfs://namenode1/foohdfs://namenode2/bar 关于hadoop-如何将Pig存储位置设置为另一个hadoop集群，我们在StackOverfl

hadoop Pig section code location apache-pig

hadoop - 如何在现有集群上升级 hadoop - google cloud

问题是独立的。我部署了一些集群，现在我想升级我的hadoop版本。我试图检查bdutil或gsutil，我没有找到如何让它工作! 最佳答案不幸的是，由于Hadoop1和Hadoop2之间的各种路径、库依赖项和守护进程有很大不同，因此目前没有简单的就地升级方法。特别是，即使协调库升级和守护程序更改，对集群进行的任何自定义也可能会中断，因此一般来说，简单地删除并重新创建集群会更容易、更安全。为了帮助防止过度卡在单个集群实例上并受益于能够从头开始重新部署可重现集群的敏捷性，最佳实践建议是将您可能拥有的任何自定义隔离到自定义“_env.s

hadoop 何在 code install_jdk section google-cloud-storage google-compute-engine google-cloud-platform

unix - 使用外部 HDD 上的虚拟机作为 Hadoop 集群的节点

我是Hadoop和虚拟机(VM)的新手。我想要一个有4-5个节点的Hadoop集群。我的理解是每个节点都是商品硬件(运行Unix的PC)。我的想法是，是否可以在外部HDD上创建4-5个虚拟机(VM)，并将它们用作Hadoop集群的节点，并在其上安装大数据应用程序？如果是这样，实现这个基于VM的Hadoop集群的一般步骤是什么？最佳答案那显然是错误的。集群的思想是通过使用多个物理机器来增加可用的计算能力，并让它们以允许整体问题在它们之间拆分的方式进行通信。现在，如果您只是在同一台物理PC上使用四个或五个虚拟机，那么您获得的CPU能

Hadoop unix section 的 virtual-machine

hadoop - 在现有的 Hortonworks HDP 集群中安装 Spark 1.5

我是Hadoop的新手，想知道如何在现有的Hadoop集群上安装Spark1.5.1。4个节点，Ubuntu14.04。Hadoop2.3.2。安巴里版本2.1.2.1。已关注tutorial，但是有Ubuntu12的spark版本，我无法在我们的系统上安装它。所以在第1步之后我坚持了下来。sudoapt-getinstallspark_2_3_2_1_12-master-y出现错误:Readingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackages

中安 Hortonworks section Spark hadoop apache-spark hortonworks-data-platform

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时，我会启动putty，然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark？在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后，我创建了一个新的pyspark配置文件，并在thistut

气隙本连 SparkContext Spark python-2.7 hadoop ipython-notebook putty pyspark

hadoop - 多节点Hadoop集群HDFS压力测试

我已经设置了一个多节点Hadoop集群。我打算在不使用MR的情况下测试HDFS的性能。Hadoop测试jar中有这样的基准吗？谢谢最佳答案测试DFSIO:默认输出目录是/benchmarks/TestDFSIO在读取测试之前运行写入测试运行写测试的语法如下:TestDFSIO.0.0.4Usage:hadoopjar$HADOOP_HOME/hadoop-*test*.jarTestDFSIO-read|-write|-clean[-nrFilesN][-fileSizeMB][-resFileresultFileName][-

hadoop strong TestDFSIO hdfs benchmarking

267 268 269270271 272 273