集群NoSQL

hadoop - 如何将一个Hadoop集群中的数据复制到另一个Hadoop集群中？

我是ApacheHadoop的新手。我们有一个Hadoop集群[1]，里面装满了一些数据。还有另一个Hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单且最受欢迎的方法是什么？最佳答案您可以使用DistCp(分布式副本)，它是一种允许您在集群之间或从/向不同的文件系统(如S3或FTP服务器)复制数据的工具。https://hadoop.apache.org/docs/r1.2.1/distcp2.html必须指定从外部集群复制数据的绝对路径:hdfs://OtherClusterNN:port/path此工具启动一

Hadoop section

hadoop - presto + 构建将加入现有 hadoop 集群的 presto 集群

我们有包含所有相关组件/服务的hadoop集群HDFSYARNmapreduceHIVETezpigZookeeperhadoopclutser包含3台master机器和12台datanode机器和3台kafka现在我们想使用presto对数据源(hadoop集群/配置单元)运行查询所以我们建立一个新的presto集群作为followwing1prestocoordinator8prestoworkers所有presto集群机器都是redhat7.2现在我们要在所有操作系统上安装presto但我们不确定在LinuxscratchOS之后是否可以肆无忌惮地安装presto或者我们可能需要

hadoop presto section strong trino

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同？

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同？换句话说，HDFS中的节点是在对它们包含的数据进行操作，还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点？如果您想让我澄清任何事情，请告诉我!任何帮助将非常感激!谢谢，泰勒最佳答案我总是先从独立的角度思考这些概念，然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark)，DataNode和NameNode只

apache-spark apache code strong section hadoop mapreduce hdfs

hadoop - 完成设置后未在单节点 hadoop 集群中运行 Wordcount 作业

hduser@distributed-desktop:/usr/local/hadoop$bin/hadoopjarhadoop-0.20.2-examples.jarwordcount/user/hduser/gutenberg/user/hduser/gutenberg-output之后没有输出。我已经安装了>>javaversion"1.6.0_26"Java(TM)SERuntimeEnvironment(build1.6.0_26-b03)JavaHotSpot(TM)ClientVM(build20.1-b02,mixedmode,sharing)我配置了一切>>Singl

中运 hadoop hduser section

hadoop - 如何在 hadoop 集群之间移动数据

我有2个在虚拟机上运行的hadoop集群。如何在这些集群之间移动HDFS数据。我可以scpHDFS上的数据，数据节点上的元数据怎么样？谢谢最佳答案看看DistCp。这是一个partofhadoop执行集群间/集群内数据复制。关于hadoop-如何在hadoop集群之间移动数据，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/23416679/

hadoop 何在 section stackoverflow

hadoop - 现有 CDH 5.5.2 集群上的 Kafka 配置

我正在我现有的CDH5.5.2集群上安装Kafka-2.0，这是我遵循的过程从CM添加服务选择Kafka(在此之前我在所有节点上下载并分发并激活了kafkaparcel)为KafkaBroker选择了1个节点，为KafkaMirrorMaker选择了4个节点然后我使用MirrorMaker节点之一更新了我的目标代理列表(bootstrap.servers)属性以及具有相同节点的源代理列表(source.bootstrap.servers)我得到以下错误(日志文件)FatalerrorduringKafkaServerStartablestartup.Preparetoshutdownj

hadoop Kafka scala LogCleaner apache-kafka hadoop2 rhel cloudera-cdh

hadoop - 是否可以在没有 HDFS 和 Hadoop 集群的情况下在本地运行 MapReduce？

鉴于我在我的Windows系统中开发MapReduce任务，并且在将它们移动到HDFS集群之前，我想在本地运行MapReduce。我只想检查我的映射器逻辑、inputSplits、输入/输出格式等是如何工作的。这可能吗？最佳答案 Hadoop以3种模式运行。1.localmode2.psuedomode3.distributedmode.您正在寻找的是本地模式。在以2或3种模式运行之前，您可以从eclipse调试mapreduce代码。This在本地模式下运行应用程序的分步指南可以帮助您调试应用程序。希望对您有所帮助!

MapReduce hadoop section strong hdfs

hadoop - 如何更改 Hadoop 集群中的最大容器容量

我按照以下说明在HORTONWORKSSANDBOX上安装了RHADOOP:http://www.research.janahang.com/install-rhadoop-on-hortonworks-hdp-2-0/一切似乎都已正确安装。但是当我在底部运行测试脚本时出现错误，似乎-(REDUCEcapabilityrequiredismorethanthesupportedmaxcontainercapabilityinthecluster.KillingtheJob.reduceResourceReqt:4096maxContainerCapability:2250)很可能是我的

容器 hadoop 14 09 mapreduce hortonworks-data-platform rhadoop

Hadoop集群环境配置搭建

一、简单介绍Hadoop最早诞生于Cutting于1998年左右开发的一个全文文本搜索引擎Lucene，这个搜索引擎在2001年成为Apache基金会的一个子项目，也是ElasticSearch等重要搜索引擎的底层基础。项目官方：https://hadoop.apache.org/二、Linux环境搭建首先准备三台Linux服务器，预装CentOS7。三台服务器之间需要网络互通。本地测试环境的IP地址分别为：192.168.2.128，192.168.2.129，192.168.2.130内存配置建议不低于4G，硬盘空间建议不低于50G。1、配置hostsvi/etc/hosts这里是给每个机

Hadoop 集群 gt lt code 搜索引擎大数据 Hadoop集群配置搭建

apache-spark - 无法通过 Spark 程序将文件写入谷歌云集群

两天后无法通过Spark程序将文件写入Google云集群。早些时候它运行良好，但现在每当我启动我的集群时，我都会看到大约200个工作已经由一个名叫dr.who的人提交了。我还尝试调用GoogleHome支持，但无法联系到他们并与之交谈。最佳答案您可以使用IdentityandAccessManagement(IAM)管理用户和权限。如果您看到用户帐户dr.who，但不承认授予他们提交作业的权限，您可以删除该帐户。关于apache-spark-无法通过Spark程序将文件写入谷歌云集

歌云 apache-spark section stackoverflow https hadoop google-cloud-platform google-compute-engine

270 271 272273274 275 276