草庐IT

cdh_admin_distcp_data_cluster_mig

全部标签

hadoop - 当我执行 distcp 时,映射器是否会在源或目标中运行

我在hadoop中运行Distcp以将数据从开发集群加载到生产集群。我的问题是资源将从何处获取。它是来自源还是目标? 最佳答案 Distcp在它运行的集群上分离出MapReduce作业。您可以在该集群上使用YarnUI来监控作业进度和利用率。假设您正在从Prod集群复制到Dev集群,并且担心资源利用率,那么您实际上可以在Dev集群上运行Distcp作业并让它从Prod集群“拉取”数据。 关于hadoop-当我执行distcp时,映射器是否会在源或目标中运行,我们在StackOverflo

oracle - Sqoop导入作业报错org.kitesdk.data.ValidationException for Oracle

Oracle11g的Sqoop导入作业因错误而失败ERRORsqoop.Sqoop:GotexceptionrunningSqoop:org.kitesdk.data.ValidationException:Datasetname81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACTisnotalphanumeric(plus'_')完整的命令如下:$sqoopjob--createingest_amsp_histcontact--import--connect"jdbc:oracle:thin:@:/"--username"c46010

两个安全(kerberos)集群之间的 Hadoop distcp

我有两个Hadoop集群,并且都运行相同的Hadoop版本。我在两个集群中都有一个用户“testuser”(示例)(因此两个集群中都存在testuserkeytabs)。Namenode#1(sourcecluster):hdfs://nn1:8020Namenode#2(destcluster):hdfs://nn2:8020我想使用hadoopdistcp将一些文件从一个集群复制到另一个集群。示例:在源集群中,我有一个路径为“/user/testuser/temp/file-r-0000”的文件,在目标集群中,目标目录为“/user/testuser/dest/”。所以我想要的是将

hadoop - 在 hadoop 2.3.0-cdh-5.0 上的 Giraph1.1.0 上执行示例显示以下错误

root@pseudo-hadoop:/usr/lib/hadoop#bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.1.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleShortestPathsComputation-viforg.apache.giraph.io.formats.JsonLongDoubleFloat

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖,所以如果我做错了什么,我深表歉意。我最近建立了一个新的hadoop集群,这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)

hadoop - Hive中如何使用DistCp直接将数据转表?

我正在使用DistCp将数据从集群1复制到集群2。我成功地将表数据从集群1复制到集群2。但是,使用hdfs,数据已发送到文件浏览器。是否有任何直接的方法可以通过使用DistCp命令将此hdfs数据转换为Hive表(包括数据类型、分隔符等)?我当然可以查询它以从hdfs收集数据,但是我必须将它们一个接一个地转换。试图寻找有效的方法。谢谢!示例:hadoopdistcphdfs://nn1:8020/source/ahdfs://nn1:8020/source/bhdfs://nn2:8020/destination 最佳答案 还没有找

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从S3复制到AmazonEMRHDFS。对于一些工作,我的空间不足,希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗? 最佳答案 您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下,AmazonEMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。理论上您可以更改dfs.rep

python - hadoop distcp 使用 subprocess.Popen

我正在尝试在python中使用subprocess.Popen运行hadoopdistcp命令并出现错误-输入无效。如果我作为Hadoop命令运行,相同的命令运行良好。Hadoop命令:hadoopdistcp-log/user/name/distcp_log-skipcrccheck-updatehdfs://xxxxx:8020/sourceDirhdfs://xxxxx:8020/destDir在python中:fromsubprocessimportPopen,PIPEproc1=Popen(['hadoop','distcp','-log/user/name/distcp_l

Hadoop - "Code moves near data for computation"

我只想澄清这句话“代码移动到数据附近进行计算”,这是否意味着开发人员编写的所有javaMR都部署到集群中的所有服务器?如果1为真,如果有人更改了MR程序,它如何分发到所有服务器?谢谢 最佳答案 Hadoop将MR作业的jar放入HDFS-它的分布式文件系统。需要它的任务跟踪器将从那里获取它。所以它分发到一些节点,然后由实际需要它们的节点按需加载。通常这需要意味着节点将要处理本地数据。Hadoop集群在作业方面是“无状态的”。每次工作都被视为新事物,并且不使用前一个工作的“副作用”。确实,当要在大型集群上处理少量文件(或准确地说是拆分

Azure HDInsight : what is head node in a hadoop cluster?

我刚刚在HDInsight中设置了一个Hadoop集群并尝试开始使用Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到hadoop集群。这让我很困惑。我有以下问题:当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到hadoop吗?第一个复制操作与第二个复制操作有何不同?什么是Hadoop中的头节点? 最佳答案 HDInsight集群中的头节点是运行构成Hadoop平台的一些服务的机器,包括名称节点和作业跟踪器。从广