草庐IT

复制集

全部标签

hadoop - 将目录从远程 HDFS 本​​地文件系统复制到我的本地机器

我本地的hdfs环境下有一个目录,我想把它复制到我的本地电脑上。我正在使用ssh(使用密码)访问hdfs。我尝试了很多建议的复制命令但没有用。我尝试过的:scp‘username@hn0-sc-had:Downloads/*’~/Downloads如本link所述.我究竟做错了什么? 最佳答案 SCP将从远程Linux服务器复制。HDFS不存在于单个服务器上或者是“本地文件系统”,因此SCP不是直接从中复制的正确工具您的选择包括SSH到远程服务器使用hdfsdfs-copyToLocal从HDFS中提取文件从您的计算机上使用SCP获

python - 使用pydoop将文件复制到hdfs

我正在尝试编写用于将文件复制到hdfs的python脚本。我在ubuntu上工作并安装了hadoop和pydoop。以下代码是我的脚本:importpydoop.hdfsashdfsclassCOPYTOHDFS():local_path='/home/user/test.txt'hdfs_path='/testfile'host='master'port=9000hdfsobj=hdfs.hdfs(host,port,user='cloudera-user',groups=['supergroup'])hdfsobj.copy(local_path,hdfsobj,hdfs_path

Hadoop distcp 从 S3 复制 : Signature does not match error

我正在尝试将文件从S3复制到我在AmazonEC2上的hadoopHDFS。我使用的命令是:bin/hadoopdistcps3://:@/f1hdfs://user/root/f1是文件名我也将它更改为s3n以查看它是否有效,但它没有。我将secret访问key中的正斜杠替换为%2F我得到的错误是:SignatureDoesNotMatchorg.jets3t.service.S3ServiceException:S3GETfailedfor'/%2Ff1'Therequestsignaturewecalculateddoesnotmatchthesignatureyouprovid

hadoop - 在 MapReduce 作业中使用之前,Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时,在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是,EMR是直接在驻留在nativeS3文件系统中的数据上运行,还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中,在这种情况下,它会占用大量资源复制数据的时间? 最佳答案 S3是一种存储机制,肯定不能处理数据。因此,在MR作业中处理之前,必须将数据复制到EC2节点。 关于hadoop-在MapReduce作业中使用之前,AmazonEMR框架是否从S

java - 将文件从 HDFS 复制到 Windows 机器时出错

有一个安装并运行着Hadoop的Linux虚拟机。在Eclipse中运行的Java应用程序可以从HDFS检索数据。如果我在VM内将文件复制到HDFS或从HDFS复制文件,一切正常。但是当我从我的Windows物理机上运行该应用程序时,我遇到了下一个异常:WARNhdfs.DFSClient:Failedtoconnectto/127.0.0.1:50010forblock,addtodeadNodesandcontinue.java.net.ConnectException:Connectionrefused:nofurtherinformation.CouldnotobtainBP-

csv - 如何使用 Flume 将一组 csv 文件从我的本地目录复制到 HDFS

如何使用Flume将一组csv文件从我的本地目录复制到HDFS?我尝试使用假脱机目录作为我的来源,但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M

scala - Spark Streaming textFileStream 复制

我正在尝试监视HDFS中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到HDFS我使用hdfsdfs-put),有时它会产生问题:SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:.COPYING所以我阅读了论坛中的问题和此处的问题SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:._COPYING_根据我读到的内容,问题与Spark流式传输在文件完成复制到HDFS和Github之前读取文件有关:https://githu

macos - OSX - 无法将文件从本地文件系统复制到 hdfs

我正在尝试将文件从本地文件系统复制到HDFS,它抛出了一个错误,指出该文件只能复制到0个节点,而不是1个。ckharide-mac:binhadoop$./hadoopdfs-copyFromLocal/tmp/wcinput/user/hadoop/app/input13/10/0113:25:05WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/hadoop/app/input/LICENSE.txtcouldonl

scala - Tachyon on Dataproc Master 复制错误

我有一个在安装了Tachyon、Spark和Hadoop的Dataproc主节点上运行的简单示例。我在从Spark写入Tachyon时遇到复制错误。有没有办法指定它不需要复制?15/10/1708:45:21WARNorg.apache.hadoop.hdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/tmp/tachyon/workers/1445071000001/3/8couldonlybereplicatedto0nodesinst

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从S3复制到AmazonEMRHDFS。对于一些工作,我的空间不足,希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗? 最佳答案 您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下,AmazonEMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。理论上您可以更改dfs.rep