hdfs_clusters

java - 将数据复制到 HDFS 时 createBlockOutputStream 出现异常

我在将数据复制到HDFS时收到以下警告消息。我有6个节点集群正在运行。每次在复制过程中它都会忽略这两个节点并显示以下警告消息。INFOhdfs.DFSClient:ExceptionincreateBlockOutputStreamjava.io.IOException:BadconnectackwithfirstBadLinkas192.168.226.136:50010atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1116)ator

Hadoop - 从 HDFS 中的多个目录创建外部表

我有一个外部表，它从HDFS位置(/user/hive/warehouse/tableX)所有文件读取数据，并在Hive中创建了一个外部表。现在，我们假设有一些数据的预先分区，并且所有以前的文件都被分配到几个具有特定名称约定的目录中dir_name>_incNumber>例如/user/hive/warehouse/split/./dir_1/files..../dir_2/files..../dir_n/files...如何创建另一个外部表来跟踪拆分文件夹中的所有文件？我是否需要创建一个在每个子文件夹(dir_x)上分区的外部表？此外，是否需要某种可以为每个子目录创建/添加分区的Hi

Hadoop HDFS section dir sample_table hive partitioning external-tables

hadoop - 从 Kafka 读取并写入 parquet 中的 hdfs

我是BigData生态系统的新手，有点入门。我已经阅读了几篇关于使用spark流读取kafka主题的文章，但想知道是否可以使用spark作业而不是流从kafka读取？如果是的话，你们能帮我指出一些可以帮助我入门的文章或代码片段吗？我的问题的第二部分是以拼花格式写入hdfs。一旦我从Kafka读到，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入Parquet文件。这是正确的方法吗？感谢任何帮助。谢谢最佳答案要从Kafka读取数据并将其以Parquet格式写入HDFS，使用SparkBatch作业而不是流，您可以

parquet hadoop 34 option Kafka apache-spark apache-kafka hdfs

hadoop - HDFS 错误 : target already exists

我是Hadoop的新手。当我尝试执行此命令时，它说目标已经存在。如何从hadoop中删除此文件？这与删除目标一样吗？me$hdfs-copyFromLocalmyfile.txtinput/myfile.txtcopyFromLocal:Targetinput/myfile.txtalreadyexists 最佳答案您不必先删除文件再复制新文件。您可以将-f选项与-copyFromLocal一起使用，一步完成hadoopfs-copyFromLocal-fmyfile.txtinput/myfile.txt

already hadoop section code copyFromLocal

hadoop - HDFS、HBase、Pig、Hive 和 Azkaban 之间的关系？

我对Apache有点陌生Hadoop.我看过this和this关于Hadoop、HBase、Pig、Hive和HDFS的问题。他们都描述了上述技术之间的比较。但是，我已经看到，通常一个Hadoop环境包含所有这些组件(HDFS、HBase、Pig、Hive、阿兹卡类)。有人能以架构工作流的方式解释这些组件/技术与它们在Hadoop环境中的职责之间的关系吗？最好有一个例子？最佳答案总体概述:HDFS是Hadoop的分布式文件系统。直观上，您可以将其视为跨越许多服务器的文件系统。HBASE是一个面向列的数据存储。它以Google的B

Azkaban hadoop strong section hive hbase hdfs

hadoop hdfs 指向文件 :///not hdfs://

所以我在CentOS5上通过ClouderaManagercdh3u5安装了Hadoop。当我运行cmd时hadoopfs-ls/我希望看到hdfs://localhost.localdomain:8020/的内容但是，它返回了file:///的内容现在，不用说，我可以通过访问我的hdfs://hadoopfs-lshdfs://localhost.localdomain:8020/但是当安装Accumulo等其他应用时，accumulo会自动检测file:///中的HadoopFilesystem问题是，有没有人遇到过这个问题，你们是如何解决的？我看过HDFSthriftserver

hdfs hadoop code section cloudera

hadoop - 如何使配置单元仅将特定文件作为来自 hdfs 文件夹的输入

我在hdfs中有如下文件夹结构/input/data/yyyy/mm/dd/和里面的数据文件，例如:/input/data/2013/05/01/file_2013_05_01_01.json//fileformatyyyy_mm_dd_hhfile_2013_05_01_02.json//fileformatyyyy_mm_dd_hh....我已经为这个文件夹定义了配置单元外部表:CREATEEXTERNALTABLEinput_data(vrINT,....)PARTITIONEDBY(tspSTRING)ROWFORMATSERDE'com.cloudera.hive.serde

配置单 hadoop code section pre hive

hadoop - 使用 HDFS 更改更新 Hive 外部表

比方说，我从文件myFile.csv(位于HDFS中)创建了Hive外部表“myTable”。myFile.csv每天都在变化，那么我也有兴趣每天更新一次“myTable”。是否有任何HiveQL查询告诉每天更新表？谢谢。附言我想知道它是否以与目录相同的方式工作:假设，当“myDir”包含10个文件时，我从HDFS目录“myDir”创建Hive分区。第二天“myDIr”包含20个文件(添加了10个文件)。我应该更新Hive分区吗？最佳答案 Hive中基本上有两种类型的表。一个是Managedtable，由hive仓库管理，每当你创

hadoop HDFS section code strong hive bigdata hiveql

hadoop - AWS EMR 性能 HDFS 与 S3

在大数据中，代码被推送到数据中执行。这是有道理的，因为数据很大而执行的代码相对较小。对于AWSEMR，数据可以位于HDFS或S3中。在S3的情况下，数据必须被拉到核心/任务节点以便从其他一些节点执行。与HDFS中的数据相比，这可能有点开销。最近，我注意到当MR作业正在执行时，将日志文件导入S3存在巨大的延迟。有时，即使在作业完成后，日志文件也要过几分钟才会出现。对此有什么想法吗？有没有人知道HDFS与S3中的数据完成MR作业的指标？最佳答案这在不同层面上是有问题的。S3只有最终一致性。在您的代码(例如close()或flush(

hadoop HDFS section strong amazon-s3 mapreduce amazon-emr

hadoop - 创建HIVE分区表HDFS定位辅助

当然希望有人可以通过基于驻留在HDFS目录中的逗号分隔文件自动添加数据来帮助我创建外部HIVE分区表。我的理解或缺乏理解是，当您定义CREATEEXTERNALTABLE、PARTITIONED并为其提供LOCATION时，它应该递归扫描/读取每个子目录，并将数据加载到新创建的分区外部表中。下面应该提供一些额外的洞察我的麻烦......SampleHDFSdirectorystructure:/data/output/dt=2014-01-01/data/output/dt=2014-01-02/data/output/dt=2014-01-03.../data/output/dt=2

辅助 hadoop section string output hive beeswax

225 226 227228229 230 231