hdfs_clusters

java - Hive:无法为 HDFS 中的现有数据创建外部表

更新1:将hadoop版本修改为2.x，错误依旧。原创:我使用hive-testbench将tpcds测试数据生成到Ceph中。目前数据位于存储系统根目录下，在tpcds文件夹中。例如hdfsdfs-ls/的结果是drwxrwxrwx-rootroot02019-08-0510:44/hivedrwxrwxrwx-rootroot02019-08-0510:44/tmpdrwxrwxrwx-rootroot02019-08-0510:44/tpcdsdrwxrwxrwx-rootroot02019-08-0510:44/userdrwxrwxrwx-rootroot02019-08-0

bash - 删除 HDFS 中在某个日期范围内创建的所有 0 字节文件

如何删除HDFS中某个日期范围内的文件。即删除从昨天到今天后150天之间创建的0字节文件。这将在shell脚本中完成。我正在使用以下命令删除所有0字节文件，但我需要一个可以提供日期范围的文件hdfsdfs-ls-R$directory/*|grep-Ev"txt|xml|csv|mrc"|awk'$1!~/^d/&&$5=="0"{print$8}'|xargs-n100hdfsdfs-rm有什么帮助吗？最佳答案 #Createreferencefilewiththedateoftoday00:00:00.000000am#aso

bash HDFS code tmp section shell hadoop

hadoop - HDFS NFS 位置使用奇怪的数字用户名值作为目录权限

在NFS安装的HDFS位置的文件夹权限中看到用户名的无意义值，而HDFS位置本身(使用HortonworksHDP3.1)看起来很好。例如。➜~ls-lh/nfs_mount_root/usertotal6.5Kdrwx------.3accumulohdfs96Jul1913:53accumulodrwxr-xr-x.392668751hadoop96Jul2515:17admindrwxrwx---.3ambari-qahdfs96Jul1913:54ambari-qadrwxr-xr-x.3druidhadoop96Jul1913:53druiddrwxr-xr-x.2hbase

hadoop HDFS drwxr-xr-x user

hadoop - 在 HDFS 中写入元数据

我们正在使用nutch来抓取我们的内部网站。我们在索引阶段提取xml文件中的元数据(我们修改了indexer.java的代码)，当以本地模式运行时，它为我们提供了所需的元数据。现在，我们想到了在集群模式下使用nutch(使用hadoop)，当我们在集群中爬取nutch时，我们能够获得索引但不能获得我们以前使用的元数据，我们使用的是本地模式(java的IO类将元数据写入文件)。对于hadoop，我们将其更改为hadoop文件系统io类。然而我们无法获得元数据。是否有任何解决方案，或者我们是否遗漏了什么？提前致谢，地理位置最佳答案 W

hadoop HDFS section 的 nutch indexer

hadoop - HDFS 上的文件 block

Hadoop是否保证同一文件的不同block将存储在集群中的不同机器上？显然复制的block将在不同的机器上。最佳答案没有。如果您查看HDFSArchitectureGuide，您将看到(在图表中)文件part-1的复制因子为3，并且由标记为2、4和5的三个block组成。请注意block2和5在一种情况下在同一个数据节点上。关于hadoop-HDFS上的文件block，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop block section stackoverflow hdfs

hadoop - 并行复制到 HDFS

从NFS装载实现到hadoop的并行复制的最佳和快速方法是什么？我们有一个包含大量文件的挂载，我们需要将其复制到hdfs中。一些选项:以多线程方式运行copyFromLocal以独立的方式使用distcp。我可以写一个只有map的作业来做复制吗？问候，京东最佳答案我认为关键问题是NFS链接的源端是什么？如果它是一个NAS，你可能会更好地处理你有多台客户端机器同时运行copyFromLocal(每台一台)的情况。当您从同一个客户端同时读取超过5-10个磁盘时，即使是高性能NAS也会感到不快。我将对以下内容进行建模(全部使用copy

hadoop HDFS section copyFromLocal li

linux - Hadoop HDFS 测试运行问题 - org.apache.hadoop.conf.Configuration NoClassDefFoundError

我正在使用Hadoop0.21.0。并尝试运行CAPI库附带的hdfs_test应用程序。经过许多问题后，我能够编译hdfs_test。现在，当我运行它时:./hdfs_test我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.hadoop.conf.Configuration.(Configuration.java:153)Causedby:java.lang.ClassNotFoundException:org

NoClassDefFoundError Configuration java section URLClassLoader linux gcc hadoop hdfs

ruby - 如何使用 Ruby 在 MapR HDFS 中保存文件

有没有办法使用来自Ruby的Hadoop的MapR分发将文件保存在HDFS中？显然，有一个名为thriftfs的ThriftAPI可以从客户端与HDFS通信，但看起来它没有与MapR捆绑在一起。最佳答案我也在http://answers.mapr.com/questions/1525/how-to-run-thriftfs-from-mapr?page=1#1528回答了这个问题基本思想是像Ruby这样的语言不需要语言特定的绑定(bind)来访问MapR集群的文件系统。相反，您需要做的就是将集群挂载为NFS文件系统，您可以进行任

ruby section questions how-to-run-thriftfs-from-mapr hadoop hdfs mapr

mysql - MySQL Cluster 之上的 Hive 层

免责声明:我是Hadoop和Hive的新手。我们搭建了一个存储海量数据的MySql集群(7.2.5版本)。行数达到数百万，并根据Mysql的自动分片逻辑进行分区。尽管我们正在利用Cluster7.2的自适应查询本地化(AQL)，但我们的一些查询有多个连接并且会运行几分钟甚至几个小时。在这种情况下，我可以使用Hive和Hadoop一起查询数据库并检索数据吗？它会使查询更快吗？它是否复制其文件系统中的数据？这种方法的优缺点是什么？我的意图是使用Hive作为MySQLCluster之上的一个层，并使用它来读取/写入MySQLClusterDB。我的申请中没有任何交易。那么这真的可能吗？

Cluster mysql section Hive hadoop cluster-computing

java - 在 Java hdfs 中读取文件

我在集群上运行该程序时遇到了问题，因此决定在函数map和reduce中读取hdfs文件。如何逐行读取hdfs文件并烧录到ArrayList中读取行？最佳答案只是演示的代码片段:Pathpath=newPath(filePath);FileSystemfs=path.getFileSystem(context.getConfiguration());//contextofmapperorreducerFSDataInputStreamfdsis=fs.open(path);BufferedReaderbr=newBufferedR

java section ArrayList String linux hadoop solaris hdfs

158 159 160161162 163 164