草庐IT

getMerge

全部标签

hadoop - hadoop -getmerge 有替代方案吗?

我尝试使用hadoopgetmerge将80GB的文件合并到一个集群中,但由于hadoopgetmerge具有将文件从hdfs复制到本地文件系统的属性,我必须先复制到本地,然后再从本地复制到hdfs,hadoopfs-getmergehdfs:///path_in_hdfs/*./local_pathhadoopfs-copyFromLocal./local_pathhdfs://Destination_hdfs_Path/我的问题是本地数据节点小于80GB,我需要知道是否有-getmerge的替代方法,其中合并直接从HDFS发生到HDFS我也试过hadoop-cat但它不工作..

hadoop - Spark 合并与 HDFS getmerge

我正在用Spark开发一个程序。我需要将结果放在一个文件中,因此有两种方法可以合并结果:合并(Spark):myRDD.coalesce(1,false).saveAsTextFile(pathOut);之后在HDFS中合并它:hadoopfs-getmergepathOutlocalPath哪个最有效、最快速?是否有任何其他方法可以合并HDFS中的文件(如“getmerge”),将结果保存到HDFS,而不是将其保存到本地路径? 最佳答案 如果您确定您的数据适合内存,那么coalesce可能是最好的选择,但在其他情况下,为了避免OO

hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge

如何在dataproc上使用getmerge处理转储到google存储桶的部分文件。如果我尝试这个hadoopfs-getmergegs://my-bucket/temp/part-*gs://my-bucket/temp_merged我得到一个错误getmerge:/temp_merged(权限被拒绝)它适用于hadoopfs-getmergegs://my-bucket/temp/part-*temp_merged但当然是在集群机器上而不是在GS中写入合并文件。 最佳答案 根据fsshelldocumentation,getme

hadoop - 如何使用 hadoop fs -getmerge 下载 .deflate 文件?

我试过运行hadoopfs-getmerge在.deflate文件的目录中。结果是我本地机器上的一个压缩文件。将未压缩格式的整个目录下载到我的本地计算机上的最简单方法是什么? 最佳答案 试试这个:hadoopfs-text/some/where/job-output/part-* 关于hadoop-如何使用hadoopfs-getmerge下载.deflate文件?,我们在StackOverflow上找到一个类似的问题: https://stackoverfl

hadoop - hadoop数据复制中的getmerge命令

我的目标是读取目录中所有以“trans”开头的文件并将它们转换为单个文件并将该单个文件加载到HDFS位置我的源目录是/user/cloudera/inputfiles/假设在上述目录中,有很多文件,但我需要所有以“trans”开头的文件我的目标目录是/user/cloudera/transfiles/所以我在下面尝试了这个命令hadoopdfs-getmerge/user/cloudera/inputfiles/trans*/user/cloudera/transfiles/records.txt但是上面的命令不起作用。如果我尝试下面的命令,那么它会起作用hadoopdfs-getme

hadoop - Hadoop -getmerge 是如何工作的?

hadoop中的getmerge说明Usage:hdfsdfs-getmergesrclocaldst[addnl]我的问题是,为什么getmerge连接到本地目标而不是hdfs本身?之所以问这个问题是因为我有以下问题如果要合并的文件超过本地大小怎么办?将hadoop-getmerge命令限制为仅连接到本地目标背后是否有任何特定原因? 最佳答案 getmerge命令专为将HDFS中的文件合并到本地文件系统上的单个文件而创建。此命令对于下载MapReduce作业的输出非常有用,它可以生成多个part-*文件并在本地将它们组合成一个文件

hadoop - getMerge 在 Hadoop 中如何工作?

我想知道getMerge命令在OS/HDFS级别如何工作。它将每个字节/block从一个文件复制到另一个文件,还是只是一个简单的文件描述符更改?它的成本是多少? 最佳答案 getmergeUsage:hadoopfs-getmerge[addnl]Takesasourcedirectoryandadestinationfileasinputandconcatenatesfilesinsrcintothedestinationlocalfile.Optionallyaddnlcanbesettoenableaddinganewline

由于磁盘空间不足,Hadoop fs getmerge 到远程服务器/机器

我和其他帖子有同样的问题:hadoopgetmergetoanothermachine但答案对我不起作用总结一下我想做的事情:从hadoop集群合并(或获取文件),而不是复制到本地机器(由于磁盘空间不足或没有),而是直接将它们传输到远程机器。我的公钥在远程机器授权key列表中,因此不需要密码验证。我在本地机器上的常用命令是(合并文件并将其作为gzip文件放到本地服务器/机器上):hadoopfs-getmergefolderName.on.clustermerged.files.in.that.folder.gz我在另一篇文章中尝试过:hadoopfs-catfolderName.on

hadoop - 使用 hadoop getmerge 在文档之间添加新行

我正在尝试从hadoop中获取一堆文件并将它们合并到一个大文件中,我希望在每个文档之间有一个换行符。hadoopfs-getmergeaddnl应该这样做,但无论如何它似乎都不会添加换行符!我也试过hadoopfs-getmerge-nl看到这个之后:https://issues.apache.org/jira/browse/HADOOP-7340但这也行不通。我错过了什么吗?这对任何人都有效吗?谢谢! 最佳答案 如果您乐于编写一些代码来执行此操作(并且不依赖于shell命令),您可以修改当前的FsShell.copyMergeTo

hadoop getmerge到另一台机器

是否可以将hadoopdfs-getmerge命令的输出存储到另一台机器?原因是我本地机器没有足够的空间。作业输出为100GB,我的本地存储为60GB。另一个可能的原因可能是我想在另一台机器上本地处理另一个程序的输出,我不想传输它两次(HDFS->本地FS->远程机器)。我只想要(HDFS->远程机器)。我正在寻找类似于scp工作方式的东西,例如:hadoopdfs-getmerge/user/hduser/Job-outputuser@someIP:/home/user/或者,我也想从远程主机获取HDFS数据到我的本地机器。在这种情况下可以使用unix管道吗?对于那些不熟悉hadoo
12