草庐IT

hdfs_clusters

全部标签

hadoop - 将 .deflate 文件解压为 HDFS 中的文本并将结果复制到本地

运行sqoop作业后,我得到了文件.deflate扩展名(默认情况下配置压缩)。我知道我可以使用以下命令显示文件内容:hadoopfs-text如何将此结果复制到我的本地文件夹? 最佳答案 只需将输出重定向到某个本地文件hadoopfs-texthdfs_path>local_file.txt 关于hadoop-将.deflate文件解压为HDFS中的文本并将结果复制到本地,我们在StackOverflow上找到一个类似的问题: https://stackov

hadoop - HDFS 中的 block 复制限制

我目前正在重建具有区域服务器和数据节点的服务器。当我关闭一个数据节点时,10分钟后,它所拥有的block将在其他数据节点之间重新复制,这是应该的。我们有10个数据节点,因此在重新复制block时我看到网络流量很大。但是,我发现每台服务器的流量大约只有500-600mbps(所有机器都有千兆位接口(interface)),所以它绝对不受网络限制。我试图弄清楚是什么限制了数据节点发送和接收block的速度。每个数据节点有六个7200rpmsata驱动器,在此期间IO使用率非常低,每个驱动器的峰值仅为20-30%。hdfs是否内置了限制block复制速度的限制?

hadoop - 为什么每次重启机器后都需要格式化HDFS?

我在我的笔记本电脑上安装了伪分布式模式的Hadoop,操作系统是Ubuntu。我已经更改了hadoop存储其数据的路径(默认情况下hadoop将数据存储在/tmp文件夹中)hdfs-site.xml文件如下所示:dfs.data.dir/HADOOP_CLUSTER_DATA/data现在每当我重新启动机器并尝试使用start-all.sh脚本启动hadoop集群时,数据节点永远不会启动。我通过检查日志和使用jps命令确认数据节点没有启动。然后我使用stop-all.sh脚本停止集群。使用hadoopnamenode-format命令格式化HDFS。使用start-all.sh脚本启动

hadoop - 用于处理大数据的 MySQL Cluster 与 Hadoop

我想知道使用MySQL集群和使用Hadoop框架的优点/缺点。什么是更好的解决方案。我想听听您的意见。我认为使用MySQL集群的优点是:高可用性良好的可扩展性高性能/实时数据访问您可以使用商用硬件而且我看不出有什么缺点!有没有Hadoop没有的缺点?Hadoop和Hive的优点是:也有很好的可扩展性您也可以使用商用硬件在异构环境中运行的能力使用MapReduce框架进行并行计算使用HiveQL的Hive缺点是:没有实时数据访问。分析数据可能需要几分钟或几小时。所以在我看来,对于处理大数据,MySQL集群是更好的解决方案。为什么Hadoop是处理大数据的chalice?你怎么看?

scala - 将文件从本地移动到 HDFS

我的环境使用Spark、Pig和Hive。我在用Scala(或与我的环境兼容的任何其他语言)编写可以将文件从本地文件系统复制到HDFS的代码时遇到了一些麻烦。有人对我应该如何进行有任何建议吗? 最佳答案 其他答案对我不起作用,所以我在这里写另一个。试试下面的Scala代码:importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.FileSystemimportorg.apache.hadoop.fs.PathvalhadoopConf=newConfi

unix - 使用命令行查找 hdfs 分布式文件中的总行数

我在一个集群上工作,数据集以分布式方式保存在hdfs中。这是我所拥有的:[hmi@bdadev-5~]$hadoopfs-ls/bdatest/clm/data/Found1840items-rw-r--r--3bdasupergroup02015-08-1100:32/bdatest/clm/data/_SUCCESS-rw-r--r--3bdasupergroup344043902015-08-1100:32/bdatest/clm/data/part-00000-rw-r--r--3bdasupergroup344040622015-08-1100:32/bdatest/clm/

hadoop - HDFS 到 HDFS 完全强制移动文件

据我所知,在从一个HDFS位置移动到另一个位置时,没有直接选项可以覆盖HDFS中的文件,复制cp可以选择强制执行。我试图找出是否有任何黑客可以做到这一点?我们能做的是hdfsdfs-cp-f/hdfs/location1/hdfs/location2而不是hdfsdfs-mv-f/hdfs/location1//hdfs/location2/实现我的目的的一种方法是先执行hdfsdfs-cp-f/hdfs/location1/hdfs/location2,然后使用hdfsdfs-删除location1文件-rm-r/hdfs/location1但出于某种原因我不想这样做。任何其他使用一

hadoop - Oozie shell 操作可以在 HDFS 上创建输出文件吗?

我是Oozie和Hadoop的新手。我想问问我是否可以在Oozie中运行shell操作并将输出存储到Hadoop分布式文件系统上的文件中。 最佳答案 当然-使用以下作为shell操作的脚本:#!/bin/bashecho"foo">output.txthdfsdfs-moveFromLocaloutput.txt/your/path/in/hdfs 关于hadoop-Oozieshell操作可以在HDFS上创建输出文件吗?,我们在StackOverflow上找到一个类似的问题:

hadoop - 从 Windows 将文件传入和传出 HDFS

我需要一种方法从不属于集群的节点将文件传入和传出HDFS。是一个用户界面,有一个浏览按钮来做到这一点吗?我正在使用一台Windows机器,我需要从那里传输到HDFS。 最佳答案 我觉得hoop可以帮到你。https://github.com/cloudera/hoopHoop,HadoopHDFSoverHTTPHoopisaserverthatprovidesaRESTHTTPgatewaytoHDFSwithfullread&writecapabilities.HoopisdistributedunderApacheLicens

hadoop - HDFS伪分布式模式namenodes启动报错

我正在尝试以伪分布式模式在MacOSX(Java7)上启动HDFS。我按照在不同地方找到的说明(例如https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html)创建了一个包含配置文件的目录。我可以在不需要密码的情况下通过ssh连接到本地主机。但是当我尝试启动hdfs时,我得到以下信息:$start-dfs.sh--config~/hadoop-pseudodistributed2014-03-1201:15:14.125java[84567:1903]UnabletoloadrealminfofromSCDynamicSto