hdfs_clusters

hadoop - 如何获取 hdfs 中的 hive 表输出或文本文件，在 hdfs 上创建了 .CSV 格式的 hive 表。

所以我正在处理的集群存在一种情况。什么都不能从集群中取出到linuxbox。建表文件为序列文件格式或文本格式。我需要将这些文件更改为CSV格式而不将它们输出到linuxbox，而且我可以从现有表创建表，如果可能的话可以将其存储为CSV文件。(我不确定我是否能做到)。我已经尝试了很多东西..但是除非我把它输出到linuxbox，否则做不到。感谢您的帮助。最佳答案您可以像这样创建另一个配置单元表:CREATETABLEhivetable_csvROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINEST

java - 我是否达到了最大允许的 HDFS block 大小

我在单节点集群中运行Hadoop0.21.0来处理一个大于200GB的大文件。为了减少执行时间，我分别尝试了不同的HDFSblock大小(128、256、512MB、1、1.5、1.75GB)。但是，当使用block大小>=2GB时出现以下异常。注意:我使用的是java-8-oracle。2015-08-0512:02:12,524WARNorg.apache.hadoop.mapred.Child:Exceptionrunningchild:java.lang.IndexOutOfBoundsExceptionatorg.apache.hadoop.fs.FSInputChecker

block java apache hadoop

hadoop - Cloudera 5.4.4 Cluster - 获取聚合使用指标

我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个？我不认为我完全确定从哪里开始。任何起点将不胜感激。另外，请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的

Cloudera Cluster section Ganglia Hadoop cloudera-cdh cloudera-manager

hadoop - hadoop中的hdfs如何利用数据节点中 block 的空闲空间？

我的文件大小为10MB，我将其存储在hadoop中，但hdfs中的默认block大小为64MB。因此，我的文件使用了64MB中的10MB。HDFS将如何利用同一block中剩余的54MB空闲空间？最佳答案从逻辑上讲，如果您的文件小于block大小，HDFS会将该特定文件的block大小减小到文件的大小。所以HDFS只会使用10MB来存储10MB的小文件。它不会浪费54MB或留空。这里详细描述了HDFS的小文件:http://blog.cloudera.com/blog/2009/02/the-small-files-proble

hadoop 点中 section block the-small-files-problem hdfs

hadoop - 无法将文件写入 hdfs - 在安全模式下出现错误 hdfs

当我尝试将文件从我的本地目录复制到HDFS时，出现以下错误:[cloudera@localhost~]$hadoopfs-copyFromLocalhello.txt/user/cloudera/my_datacopyFromLocal:Cannotcreatefile/user/cloudera/my_data/hello.txt._COPYING_.Namenodeisinsafemode.然后我执行了命令:[cloudera@localhost~]$suPassword:[root@localhostcloudera]#hdfsdfsadmin-safemodeleavesafe

hdfs hadoop code section cloudera-cdh

hadoop - Apache pig : How to load a sequence file which is stored in hdfs?

我的序列文件直接存储在hdfs例如:grunt>lsgrunt>ls/blablahdfs://namenode1:54310/blabla/0411f03a-db7f-48d0-9542-5203304e3e81.seq185284523hdfs://namenode1:54310/blabla/05be8fc0-e967-42e1-b76a-0d7108a69d17.seq201489688hdfs://namenode1:54310/blabla/06222427-519c-49c0-bbbf-49a9f43bbd13.seq196858576hdfs://namenode1:5

sequence hadoop namenode1 blabla namenode apache-pig

java - 无法从 Windows 连接到远程 HDFS

我正在尝试连接到远程HDFS实例Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://hostName:8020");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemfs=FileSystem.get(conf);RemoteIteratorri=fs.listFiles(fs.getHomeDirectory(),false);while(ri.hasNext()){LocatedFil

Windows java FileSystem hadoop apache maven hortonworks-data-platform

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

比较将avro数据存储为ORC和Parquet格式，我成功地使用"com.twitter"%"parquet-avro"%"1.6.0"将Avro数据存储到Parquet中，但找不到任何信息或API来以ORC格式存储avro数据。ORC是否仅与Hive紧密耦合？谢谢subahsh 最佳答案您没有说您在使用Spark，但问题已被标记，所以我假设您是。ORC文件格式目前与Spark中的HiveContext密切相关(我认为仅在1.4及更高版本中可用)，但如果您创建一个Hive上下文，您应该能够将数据帧写入ORC文件你可以使用Parqu

hadoop HIVE section avro ORC apache-spark

hadoop - HDFS 用户的 Hive 查询失败

如果我自己运行Hiveshell，我可以查询表。但是如果我使用sudo-uhdfshive运行hiveshell然后我所有的查询都失败并显示错误消息Applicationapplication_1447966350718_10654failed2timesduetoAMContainerforappattempt_1447966350718_10654_000002exitedwithexitCode:-1000Formoredetailedoutput,checkapplicationtrackingpage:http://vtdevana-cloudera11.dealer.ddc

hadoop HDFS code application 1447966350718 hive hadoop-yarn

java - 方案 :hdfs and Class org. 没有找到 apache.hadoop.DistributedFileSystem 的文件系统

我想上传一个文件到HDFS。我使用以下jars作为依赖项编译了我的代码:hadoop-auth-2.6.1.jar,hadoop-common-2.6.1.jar和hadoop-hdfs-2.6.1.jar,我的代码:我用Ant编译的。但是，它给了我这个错误:NoFileSystemforscheme:hdfs。然后我改了代码，重新编译:但现在我遇到了另一个错误:Classorg.apache.hdfs.DistributedFileSystemnotfound。怎么了？我该怎么办？最佳答案 DistributedFileSyst

DistributedFileSystem apache hadoop gt lt java ant

177 178 179180181 182 183