HDFS_DATANODE

hadoop - 从 HDFS 导入数据到 Hive 表

我的数据在HDFS的data/2011/01/13/0100/file中，每个文件都包含以制表符分隔的数据，比如名称、ip、url。我想在Hive中创建一个表并从hdfs中导入数据，表中应包含时间、名称、ip和url。如何使用Hive导入这些？r数据应该采用其他格式以便我也可以导入时间？最佳答案您需要创建用于加载文件的表，然后使用LOADDATA命令将文件加载到Hive表中。查看Hivedocumentation了解要使用的精确语法。问候，杰夫关于hadoop-从HDFS导入数据到

hadoop - 更新 hadoop HDFS 文件

我是Hadoop的新手。我一直在读到HDFS主要是关于“一次写入，随时读取”。我有一个用例，我可能必须对存储在HDFS中的文件进行修改。我一直在研究是否有任何方法可以做到这一点。我的问题是是否可以将HDFS文件加载到HBase中，进行修改，然后将其保存回HDFS，然后删除原始文件。如果可行，请告诉我。最佳答案如果您需要更新文件中的值，您最好使用HBase。您仍然可以通过TableInputFormat和TableOutputFormat在MR作业中使用HBase表。如果您想追加数据，您可以使用任何支持hdfs追加的hadoop版

hadoop HDFS section

java - HDFS 集群中的 ListFiles

我是hadoop和其他东西的业余爱好者。现在，我正在尝试访问hadoop集群(HDFS)并从客户端eclipse检索文件列表。我在hadoopjavaclient上设置好需要的配置后就可以进行如下操作了。我可以执行copyFromLocalFile、copyToLocalFile操作从客户端访问HDFS。这就是我所面临的。当我给出listFiles()方法时，我得到了org.apache.hadoop.fs.LocatedFileStatus@d0085360org.apache.hadoop.fs.LocatedFileStatus@b7aa29bf主要方法Propertiespro

ListFiles java hadoop apache code

Hadoop (HDFS) - 文件版本控制

在给定时间，我的应用程序(apacheCMIS)中有用户文件系统。随着它越来越大，我怀疑是否转向hadoop(HDFS)，因为我们也需要对其进行一些统计。问题:当前文件系统提供文件的版本控制。当我读到hadoop-HDFS-和文件版本控制时，我发现大多数时候我必须自己编写这个(版本控制)层。HDFS中是否已经有可用于管理文件版本控制的东西，或者我真的必须自己编写它(不想重新发明热水，但也没有找到合适的解决方案)。回答有关完整详细信息:请参阅下面对答案的评论Hadoop(HDFS)不支持文件的版本控制。当您将hadoop与(amazon)S3结合使用时，您可以获得此功能:Hadoop将使

Hadoop HDFS section noreferrer version-control

Hadoop:无法在 core-site.xml 中将默认文件系统设置为 HDFS

我在伪分布式模式下使用Hadoop1.0.3。而我的conf/core-site.xml设置如下:fs.default.namehdfs://localhost:9000mapred.child.tmp/home/administrator/hadoop/temp所以我认为我的默认文件系统设置为HDFS。但是，当我运行以下代码时:Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);我认为fs应该是一个DistributedFileSystem实例。然而，结果却是LocalFileSystem实例。

core-site Hadoop code section filesystems hdfs

hadoop - Flume NG 和 HDFS

我是hadoop的新手，所以请原谅这些愚蠢的问题。我有以下知识Hadoop的最佳用例是大文件，因此有助于在运行mapreduce任务时提高效率。牢记以上几点，我对FlumeNG感到有些困惑。假设我正在拖尾一个日志文件并且每秒生成一次日志，当日志获得新行时，它将通过Flume传输到hdfs。a)这是否意味着flume在我拖尾的日志文件中记录的每一行上创建一个新文件，或者它是否附加到现有的hdfs文件？b)首先在hdfs中允许追加吗？？c)如果b的答案为真？即内容不断附加，我应该如何以及何时运行我的mapreduce应用程序？以上问题听起来可能很愚蠢，但非常感谢能回答相同的问题。PS:我还

hadoop Flume code section hdfs

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误，hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

hadoop able apache java hdfs cloudera

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗？当我总结“hdfsdfs-du/”的输出时，与“hdfsdfsadmin-report”(“DFSUsed”行)相比，我总是消耗更少的空间。是否有du没有考虑的数据？最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子，通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况，同时考虑了数据复制。所以当从dfs-ud命令获取数字时，它应该大几倍。

amp 34 section hdfs code hadoop

scala - 获取 HDFS 中 Parquet 文件的大小，以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录，每个目录包含几千个小的(大多数使用以下代码，我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小，因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做？或者在Spar

Parquet scala section hadoop apache-spark hdfs

hadoop - 无法创建目录/home/hadoop/hadoopinfra/hdfs/namenode/current

我得到了错误Cannotcreatedirectory/home/hadoop/hadoopinfra/hdfs/namenode/current尝试在本地Mac上安装hadoop时。这可能是什么原因？仅供引用，我将我的xml文件放在下面:mapred-site.xml:mapreduce.framework.nameyarnhdfs-site.xml:dfs.replication1dfs.name.dirfile:///home/hadoop/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop/hadoopinfra/h

hadoop hadoopinfra gt lt property hdfs

53 54 555657 58 59