hdfs_clusters

hadoop - 无法使用 PDI 步骤连接到 HDFS

我已经在Windows8系统的Ubuntu14.04VM中成功配置了Hadoop2.4。Hadoop安装工作绝对正常，而且我能够从我的Windows浏览器查看Namenode。下面附上图片:所以，我的主机名是:ubuntu和hdfs端口:9000(如果我错了请纠正我)。核心网站.xml:fs.defaultFShdfs://ubuntu:9000问题出在从我的Pentaho数据集成工具连接到HDFS时。下面附上图片。PDI版本:4.4.0使用的步骤:Hadoop复制文件请帮助我使用PDI连接到HDFS。我需要为此安装或更新任何jar吗？如果您需要更多信息，请告诉我。

java - Yarn mini-cluster 容器日志目录不包含 syslog 文件

我已经基于来自CDH5.1.0的hadoop2.3.0设置了带有1个节点管理器、4个本地目录和4个日志目录等的YARNMapReduce迷你集群。它看起来或多或少有效。我未能实现的是来自容器的系统日志记录。我看到容器日志目录、stdout和stderr文件，但没有看到带有MapReduce容器日志记录的syslog。适当的stderr警告我没有log4j配置并且不包含任何其他字符串:log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.impl.MetricsSystemImpl).log4j:WAR

mini-cluster 容器 code section java hadoop mapreduce log4j hadoop-yarn

java - Hadoop hdfs 显示 ls : `/home/hduser/input/' : No such file or directory error

我已经使用thistutorial在一台机器上安装了Hadoop2.6.我使用的是Ubuntu12.04机器和Java版本1.6.0_27。我已经为Hadoop操作创建了单独的用户hduser。我已经设置了HADOOP_HOME环境变量的值/usr/local/hadoop我已经提取了Hadoop分布。现在我正在关注example.但是当我执行命令时$HADOOP_HOME/bin/hdfsdfs-ls/home/hduser/input/它给出了以下错误-15/01/0218:32:38WARNutil.NativeCodeLoader:Unabletoloadnative-hado

directory Hadoop strong hduser java linux ubuntu

hadoop - HDFS 中的文件大小应该是多少才能获得最佳 MapReduce 作业性能

我想将文本文件从外部源复制到HDFS。让我们假设我可以根据文件的大小合并和拆分文件，文本文件的大小应该是多少才能获得最佳的自定义MapReduce作业性能。大小重要吗？最佳答案 HDFS旨在支持非常大的文件而不是小文件。与HDFS兼容的应用程序是那些处理大型数据集的应用程序。这些应用程序只写入一次数据，但会读取一次或多次，并要求以流式传输速度满足这些读取。HDFS支持文件的一次写入多次读取语义。在HDFS架构中有一个block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时，它被分成64MB的b

MapReduce 该是 block 射器 section hadoop filesystems hdfs

java - HDFS 缓冲写/读操作

我正在使用HDFSJavaAPI以及FSDataOutput和FSDataInput流将文件写入/读取到由4台机器组成的Hadoop2.6.0集群。FS流实现有一个bufferSize构造函数参数，我假设它用于流的内部缓存。但它似乎对写入/读取速度完全没有影响，无论其值如何(我尝试了8KB到几兆字节之间的值)。我想知道是否有某种方法可以实现对HDFS集群的缓冲写入/读取，而不是将FSDataOutput/Input包装到BufferedOutput/Input流中？最佳答案我找到了答案。FileSystem.create()的b

java HDFS section Hadoop em

hadoop - 在 hadoop 中，有没有办法获取 hdfs block 的底层文件系统文件名？

我了解到hdfs将其文件作为数据block存储在数据节点上，每个block实际上作为文件存储在每个数据节点的本地文件系统中。所以我想知道在给定hdfs文件名的情况下，是否有办法在本地文件系统中获取hdfsblock的实际文件名。谢谢。最佳答案您可以对您想到的文件使用Hadoop的FSCK命令。这将返回主机名和block名。但是，它不提供本地文件系统上文件的完整路径。$hadoopfsck/path/to/file-files-blocks-locations另一种选择是通过HDFSWebUI。如果浏览到每个文件，它将列出bloc

hadoop 底层 section block hdfs bigdata

hadoop - 从 HDFS 收集 Parquet 数据到本地文件系统

给定一个分布在HDFS上的Parquet数据集(元数据文件+可能的.parquet部分)，如何正确合并部分并将数据收集到本地文件系统？dfs-getmerge...不起作用-它将元数据与实际的Parquet文件合并.. 最佳答案有一种涉及ApacheSparkAPI的方法-它提供了一种解决方案，但可能存在不使用第三方工具的更有效的方法。spark>valparquetData=sqlContext.parquetFile("pathToMultipartParquetHDFS")spark>parquet.repartition(

Parquet hadoop section code pathToSinglePartParquetHDFS hdfs

python - 从 python 脚本读取大型 hdfs 文件

我有一个python脚本需要处理一个大文件。如果我减少原始文件并运行脚本，代码可以正常工作，但是当我在原始数据上运行脚本时，我的脚本需要永远执行。我正在考虑使用HDFS来存储文件并从python脚本中读取它。但是为了使用HDFS，我是否必须将我的python脚本转换为mapreduce程序，或者我是否可以使用相同的代码。最佳答案您需要调整Python代码然后使用HadoopStreaming处理它。这正是流式传输所针对的情况类型。关于python-从python脚本读取大型hdfs

python 大型 section stackoverflow hadoop hdfs

hadoop - hbase hdfs 在进程重启时进入安全模式(可能在复制报告下？)

更新您需要将hdfs-site.xml提供给hbase/conf，以便hbase可以使用正确的目标副本，否则它使用默认值3。这修复了消息。但是在每次进程重启期间，我的名称节点始终处于安全模式。fsck一切正常，没有错误，没有复制不足等。之后我看不到任何日志:2012-10-1713:15:13,278信息org.apache.hadoop.hdfs.StateChange:状态*安全模式开启。报告block的比例0.0000尚未达到阈值0.9990。安全模式将自动关闭。2012-10-1713:15:14,228信息org.apache.hadoop.net.NetworkTopolo

hadoop hbase replicated section hdfs

hadoop - hdfs dfs -getmerge 命令有什么作用？

作为配置单元查询的结果，我得到了多个输出文件(按排序方式分发)，现在我想合并它们以生成一个文件。所以我尝试了hdfsdfs-getmerge命令。现在我想了解-getmerge是在连接之前对文件进行排序还是只是连接？最佳答案 publicstaticbooleanMore...copyMerge(FileSystemsrcFS,PathsrcDir,277FileSystemdstFS,PathdstFile,278booleandeleteSource,279Configurationconf,StringaddString)t

getmerge hadoop section contents srcDir hdfs

203 204 205206207 208 209