草庐IT

hdfs_clusters

全部标签

hadoop2 在没有 yarn 和 mapreduce 的情况下构建 hdfs

我想根据已发表的论文对hadoophdfs进行一些更改。之后我只需要构建HDFS并让它运行起来。我该怎么做? 最佳答案 引用以下Hadoop文档http://wiki.apache.org/hadoop/HowToContribute 关于hadoop2在没有yarn和mapreduce的情况下构建hdfs,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/23050595/

hadoop - 粉碎 HDFS 中的小文件

我们在Mesos0.17上针对CDH5运行Spark0.9.1。到目前为止,我们继续使用CDH系列的“mr1”版本,以便我们可以运行filecrush。项目在我们的小文件上。由于各种原因,我们希望可以自由升级到MR-2。在Hadoop的map/reduce之外是否存在任何工具可以执行此操作?我们今天使用的filecrush库非常重要,因此将模式转换为Spark似乎并不简单。 最佳答案 MR1代码通常无需更改(或很少更改)即可针对MR2库重新编译。那行不通吗?这可能非常简单。您不会将其直接转换为Spark,但您可以通过映射一堆文件并使

hadoop - 如何将 Word 和 PDF 文档移动到 Hadoop HDFS?

我想从本地系统(不在Hadoop集群中的系统)复制/上传一些文件到HadoopHDFS。本地系统也可以是Windows系统。我尝试使用Flume假脱机目录。它适用于文本文件。对于其他文档,MIME类型已损坏。请告诉我将文件加载到HDFS的不同方法。 最佳答案 hadoopfs-copyFromLocalURI检查Hadoop文档:copyFromLocal请记住,ApacheFlume并不是为了复制一些文件而创建的。 关于hadoop-如何将Word和PDF文档移动到HadoopHDFS

hadoop - 将数据从 HDFS 加载到 HBASE

我正在使用Apachehadoop1.1.1和Apachehbase0.94.3。我想将数据从HDFS加载到HBASE。我写了pig脚本来达到目的。首先,我在habse中创建了hbase表,然后编写了pig脚本以将数据从HDFS加载到HBASE。但它没有将数据加载到hbase表中。不知道它要去哪里。以下是用于创建hbase表的命令:创建表'mydata','mycf'下面是从hdfs加载数据到hbase的pig脚本:A=LOAD'/user/hduser/Dataparse/goodrec1.txt'USINGPigStorage(',')as(c1:int,c2:chararray,

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面,我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标,并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式,以便所有映射器都能看到。有这方面的说明吗?谢谢。 最佳答案 最后我知道了怎么做。所以,为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

hadoop - 使用 cloudera 管理器部署 hdfs core-site.xml

我正在尝试使用cloudera管理器(CDH5b2)将lzo支持添加到我的配置文件中。如果我将io.compression.codecs添加到服务范围的hdfs配置中,并部署配置文件,/etc/hadoop/conf.cloudera.hdfs/core-site.xml现在包含新值。但是,/etc/hadoop/conf.cloudera.yarn/core-site.xml有更高的优先级(update-alternatives--displayhadoop-conf),当我开始MR作业时,不使用hdfscore-site.xml值。显然,我可以简单地手动修改yarncore-sit

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件?

列出Spark本地可用的所有文件名的最有效方法是什么?我正在使用ScalaAPI,但是,Python也应该没问题。 最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

java - 在没有 HDFS 的情况下执行 Hadoop 代码

我在运行没有命令访问hdfs的代码时遇到问题:hadoopjar这是我尝试运行的代码:packagecom.infotel.mycompany.testhdfs;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;/***Helloworld!

java - 包括 HDFS 路径中文件夹中的所有文件

当我设置以下路径时:Pathfile=newPath("hdfs://hdp2minion1.domain.com:8020/apps/hive/warehouse/temp_hbase/");它返回一个FileNotFoundException(temp_hbase是HDFS上的一个文件夹)。我只想将所有文件包含在该文件夹中。还有其他方法可以实现吗?此处不能使用通配符。 最佳答案 你需要初始化FileSystemConfigurationconfiguration=newConfiguration();FileSystemhdfs

hadoop - 压缩 HDFS 文件时出现 IOException

我想压缩HDFS中当前存在的文件并删除未压缩的文件。这是代码,但它因IOException而出错。关于为什么会发生这种情况的任何指示?CompressionCodecFactoryccf=newCompressionCodecFactory(conf);CompressionCodeccodec=ccf.getCodecByClassName(GzipCodec.class.getName());InputStreaminpStrm=codec.createInputStream(fs.open(infoFilePath));OutputStreamcompressedOutputSr