草庐IT

hdfs_clusters

全部标签

java - 将数据复制到 HDFS 时 createBlockOutputStream 出现异常

我在将数据复制到HDFS时收到以下警告消息。我有6个节点集群正在运行。每次在复制过程中它都会忽略这两个节点并显示以下警告消息。INFOhdfs.DFSClient:ExceptionincreateBlockOutputStreamjava.io.IOException:BadconnectackwithfirstBadLinkas192.168.226.136:50010atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1116)ator

Hadoop - 从 HDFS 中的多个目录创建外部表

我有一个外部表,它从HDFS位置(/user/hive/warehouse/tableX)所有文件读取数据,并在Hive中创建了一个外部表。现在,我们假设有一些数据的预先分区,并且所有以前的文件都被分配到几个具有特定名称约定的目录中dir_name>_incNumber>例如/user/hive/warehouse/split/./dir_1/files..../dir_2/files..../dir_n/files...如何创建另一个外部表来跟踪拆分文件夹中的所有文件?我是否需要创建一个在每个子文件夹(dir_x)上分区的外部表?此外,是否需要某种可以为每个子目录创建/添加分区的Hi

hadoop - 从 Kafka 读取并写入 parquet 中的 hdfs

我是BigData生态系统的新手,有点入门。我已经阅读了几篇关于使用spark流读取kafka主题的文章,但想知道是否可以使用spark作业而不是流从kafka读取?如果是的话,你们能帮我指出一些可以帮助我入门的文章或代码片段吗?我的问题的第二部分是以拼花格式写入hdfs。一旦我从Kafka读到,我想我会有一个rdd。将此rdd转换为数据帧,然后将数据帧写入Parquet文件。这是正确的方法吗?感谢任何帮助。谢谢 最佳答案 要从Kafka读取数据并将其以Parquet格式写入HDFS,使用SparkBa​​tch作业而不是流,您可以

hadoop - HDFS 错误 : target already exists

我是Hadoop的新手。当我尝试执行此命令时,它说目标已经存在。如何从hadoop中删除此文件?这与删除目标一样吗?me$hdfs-copyFromLocalmyfile.txtinput/myfile.txtcopyFromLocal:Targetinput/myfile.txtalreadyexists 最佳答案 您不必先删除文件再复制新文件。您可以将-f选项与-copyFromLocal一起使用,一步完成hadoopfs-copyFromLocal-fmyfile.txtinput/myfile.txt

hadoop - HDFS、HBase、Pig、Hive 和 Azkaban 之间的关系?

我对Apache有点陌生Hadoop.我看过this和this关于Hadoop、HBase、Pig、Hive和HDFS的问题。他们都描述了上述技术之间的比较。但是,我已经看到,通常一个Hadoop环境包含所有这些组件(HDFS、HBase、Pig、Hive、阿兹卡类)。有人能以架构工作流的方式解释这些组件/技术与它们在Hadoop环境中的职责之间的关系吗?最好有一个例子? 最佳答案 总体概述:HDFS是Hadoop的分布式文件系统。直观上,您可以将其视为跨越许多服务器的文件系统。HBASE是一个面向列的数据存储。它以Google的B

hadoop hdfs 指向文件 :///not hdfs://

所以我在CentOS5上通过ClouderaManagercdh3u5安装了Hadoop。当我运行cmd时hadoopfs-ls/我希望看到hdfs://localhost.localdomain:8020/的内容但是,它返回了file:///的内容现在,不用说,我可以通过访问我的hdfs://hadoopfs-lshdfs://localhost.localdomain:8020/但是当安装Accumulo等其他应用时,accumulo会自动检测file:///中的HadoopFilesystem问题是,有没有人遇到过这个问题,你们是如何解决的?我看过HDFSthriftserver

hadoop - 如何使配置单元仅将特定文件作为来自 hdfs 文件夹的输入

我在hdfs中有如下文件夹结构/input/data/yyyy/mm/dd/和里面的数据文件,例如:/input/data/2013/05/01/file_2013_05_01_01.json//fileformatyyyy_mm_dd_hhfile_2013_05_01_02.json//fileformatyyyy_mm_dd_hh....我已经为这个文件夹定义了配置单元外部表:CREATEEXTERNALTABLEinput_data(vrINT,....)PARTITIONEDBY(tspSTRING)ROWFORMATSERDE'com.cloudera.hive.serde

hadoop - 使用 HDFS 更改更新 Hive 外部表

比方说,我从文件myFile.csv(位于HDFS中)创建了Hive外部表“myTable”。myFile.csv每天都在变化,那么我也有兴趣每天更新一次“myTable”。是否有任何HiveQL查询告诉每天更新表?谢谢。附言我想知道它是否以与目录相同的方式工作:假设,当“myDir”包含10个文件时,我从HDFS目录“myDir”创建Hive分区。第二天“myDIr”包含20个文件(添加了10个文件)。我应该更新Hive分区吗? 最佳答案 Hive中基本上有两种类型的表。一个是Managedtable,由hive仓库管理,每当你创

hadoop - AWS EMR 性能 HDFS 与 S3

在大数据中,代码被推送到数据中执行。这是有道理的,因为数据很大而执行的代码相对较小。对于AWSEMR,数据可以位于HDFS或S3中。在S3的情况下,数据必须被拉到核心/任务节点以便从其他一些节点执行。与HDFS中的数据相比,这可能有点开销。最近,我注意到当MR作业正在执行时,将日志文件导入S3存在巨大的延迟。有时,即使在作业完成后,日志文件也要过几分钟才会出现。对此有什么想法吗?有没有人知道HDFS与S3中的数据完成MR作业的指标? 最佳答案 这在不同层面上是有问题的。S3只有最终一致性。在您的代码(例如close()或flush(

hadoop - 创建HIVE分区表HDFS定位辅助

当然希望有人可以通过基于驻留在HDFS目录中的逗号分隔文件自动添加数据来帮助我创建外部HIVE分区表。我的理解或缺乏理解是,当您定义CREATEEXTERNALTABLE、PARTITIONED并为其提供LOCATION时,它应该递归扫描/读取每个子目录,并将数据加载到新创建的分区外部表中。下面应该提供一些额外的洞察我的麻烦......SampleHDFSdirectorystructure:/data/output/dt=2014-01-01/data/output/dt=2014-01-02/data/output/dt=2014-01-03.../data/output/dt=2