hdfs_sink

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建，但没有任何内容附加到文件中。在我开始调试HTTP源之前，你能验证我的flume.conf吗？##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

建文中创 hdfs-agent hdfs agent hadoop cloudera flume hortonworks-data-platform flume-ng

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master，另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

copyFromLocal Datanodes hadoop code section formatting hdfs

hadoop - HDFS(序列文件)中的单个大文件或多个小文件？

目前我正在使用SequenceFile来压缩我们现有的HDFS数据。现在我有两个选项可以将这个序列文件存储为单个大文件，这意味着所有记录都转到这个文件。多个小文件，每个文件的大小与HDFSblock大小(128MB)完全匹配众所周知，HDFS文件存储为block，每个block都到一个映射器。所以我认为当MR处理序列文件时没有什么不同。我知道选项二的唯一缺点是名称节点需要更多开销来维护这些文件，而选项一只有一个文件。我对这两个选项感到困惑，因为我看到太多文章推荐了尽可能使您的HDFS文件大小与block大小匹配。尽可能将小文件合并为一个大文件。任何人都可以指出正确的方法吗？哪个更好？这

大文 hadoop block section hdfs

hadoop - 在 HDFS 中创建 zip 表

我试过创建不是这样的zip表。CREATETABLEexample_table(|aBIGINT,bBIGINT,vSTRING,dTINYINT)STOREDASTEXTFILELOCATION/path/to/directory/这不是压缩表。我还想用zip创建新表来获取该表的历史记录。我怎样才能用zip创建1个表？最佳答案首先设置下面的属性SEThive.exec.compress.output=true;SETmapred.output.compression.type=BLOCK;setmapred.output.co

中创 hadoop section code output mapreduce hdfs impala hadoop-partitioning

hadoop - HDFS 数据大小和 Hive 数据大小的差异

我在Hive中有一张表。当我运行命令showtblpropertiesmyTableName时，它给出了以下结果:numFiles12numRows1688092rawDataSize934923162totalSize936611254这意味着rawDataSize为934.92MB，totalSize为936.61MB当我运行命令来计算同一表在HDFS表位置上的数据大小时。[user@server1~]$hdfsdfs-du-h-s/apps/hive/warehouse/test.db/myTableName893.2M/apps/hive/warehouse/test.db/m

小和 hadoop section strong code hive hdfs hadoop2 apache-hive

hadoop - 如何更改 HDFS 中的文件时间戳？

在linux中，您可以使用touch来更改文件的时间戳。但是，当文件已经存在时，HDFStouchz不会更改文件时间戳。是否有一种在不删除文件的情况下更改HDFS时间戳的简单方法？最佳答案您可以使用FileSystem#setTimes方法。关于hadoop-如何更改HDFS中的文件时间戳？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/11856385/

hadoop HDFS section apache

hadoop - 从 Windows 使用 Java 访问 HDFS

我有一个ClouderaHadoop安装，我想编写一个Java程序来从Windows机器的文件系统中读取/写入。这应该是可能的吗？我的程序很简单:publicclassHadoopReader{static{URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());}publicstaticvoidmain(String[]args)throwsException{System.out.println("okay");InputStreamin=null;try{in=newURL("hdfs://HOST/PATH"

Windows hadoop Unknown Source java hdfs

hadoop - 有什么方法可以修复HDFS随机因子的种子

我正在使用HADOOP-0.22在HDFS上做一些实验。另一方面，为了使我的实验可重复，我需要修复一些随机因素的HDFS种子。具体来说，每次我重新格式化文件系统并导入同一组数据时，我都希望将数据block分配给与上一个实验相同的数据节点并具有相同的名称。我不知道是否有人这样做过。感谢任何回复。最佳答案您的Hadoop版本支持可插入block放置策略，您可以根据需要提供更加静态或非随机的block放置策略。参见HDFS-385了解更多技术细节，以及此后该界面的相关演变。关于hadoo

种子 hadoop section HDFS stackoverflow

hadoop 存储目录使用的空间超过 HDFS 上的总数据

我有一个三节点hadoop集群，复制因子=3。存储目录是每个系统的/app/hadoop/tmp/dfs/。每个datanode系统的硬盘容量为221GB。HDFS的有效数据为62GB，复制62*3=186GB。现在的问题是我的存储空间不足，即使我在660GB集群上只有186GB数据:HDFS显示可用空间的巨大差异:datanode1=7.47GBdatanode2=17.7GBdatanode3=143GB为了确保这些空间被hadoop本地存储使用，我在每个数据节点上运行了这个命令。对于数据节点1du-h--max-depth=1/app/hadoop/tmp/63G/app/had

hadoop HDFS strong section mapreduce

【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop配置文件模板参考官方配置文档：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html#Configuring_Environment_of_Hadoop_DaemonsHadoop的配置文件都在$HADOOP_HOME/etc/hadoop下面。比如我这里是：Hadoop

site 配置 span class token hadoop xml hdfs

15 16 171819 20 21