hdfs_rtp

hadoop - 了解 htfp url 和 hdfs 路径之间的区别

这种差异是在周末出现的，当时我试图通过hftp跨不同集群(在物理上分开的房间)传输大量数据hadoopdistcphftp-path-srchftp-path-dsthftpurl类似于hftp://node:50070/more/path它在某些文件上中途失败。日志说Unhandledinternalerror.Vertexfailed,vertexName=scope-152...我手动检查了这些文件，没有发现任何可疑之处。我还尝试了以下愚蠢的Pig脚本，看看它是否能让我感到惊讶data=LOAD'$src_hftp'USINGPigStorage('\t','-schema');

hadoop - Flume-ng:从本地复制日志文件到HDFS的源路径和类型

我正在尝试使用flume-ng将一些日志文件从local复制到HDFS。source是/home/cloudera/flume/weblogs/而sink是hdfs://localhost:8020/flume/转储/。一个cron作业会将日志从tomcat服务器复制到/home/cloudera/flume/weblogs/我想在文件可用时将日志文件复制到HDFS在/home/cloudera/flume/weblogs/中使用flume-ng。下面是我创建的conf文件:agent1.sources=localagent1.channels=MemChannelagent1.sin

Flume-ng hadoop code agent1 agent hdfs flume bigdata

hadoop:如何显示put命令的执行时间？或者如何显示在 hdfs 中加载文件的持续时间？

如何在hadoop中配置put命令以显示执行时间？因为这个命令:hadoopfs-puttable.txt/tables/table只是返回这个:16/04/0401:44:47WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable命令有效，但不显示任何执行时间。你知道命令是否可以显示执行时间吗？还是有另一种获取该信息的方法？最佳答案根据我的理解，hado

中加载文 hadoop namenode apache hdfs

hadoop - 使用集成 spark build 时创建 hdfs

我正在使用Windows并尝试设置Spark。之前，除了Spark之外，我还安装了Hadoop，编辑了配置文件，运行了hadoopnamenode-format，然后我们就开始了。我现在正尝试通过使用预先用hadoop构建的Spark捆绑版本-spark-1.6.1-bin-hadoop2.6.tgz来实现相同的目的到目前为止，这是一个更干净、更简单的过程，但是我无法再访问创建hdfs的命令，hdfs的配置文件不再存在，而且我在任何bin中都没有“hadoop”文件夹。spark安装中没有Hadoop文件夹，我为winutils.exe创建了一个文件夹。感觉好像错过了什么。预建版本的s

hadoop build section Spark apache-spark hdfs

hadoop - 如何每天将增量记录从 Oracle 加载到 HDFS，我们可以使用 Sqoop 或 MR Jobs。哪个是首选方法

如何每天从Oracle加载增量记录到HDFS？我们可以使用Sqoop或MRJobs吗？最佳答案 Sqoop正是为此目的而设计的，并且会导致MR作业完成复制数据的工作。有多种方法可以确定Oracle表中的新内容，例如使用表的ID，或者可能使用日期修改字段(如果有的话)。与Hadoop中的大多数东西相比，Sqoop相当简单。这是文档的链接——搜索“增量”或从第7.2.9节开始了解更多信息。http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html仅供引用一旦您使其正常工作，请查看设计用

首选 hadoop section Oracle Sqoop hive hdfs

hadoop - 将 MQ 数据导入 HDFS

我想使用Flume将websphereMQ消息导入我的hadoopVM。我以前没有使用过MQ，在我的Windows机器上安装了MQ版本8.0.0.4并创建了JNDI绑定(bind)。我已经将该JNDI绑定(bind)文件复制到/etc/flume/conf位置并为flume创建了conf文件。启动Flume代理后，出现以下错误:-Causedby:com.ibm.msg.client.jms.DetailedJMSSecurityException:JMSWMQ2013:ThesecurityauthenticationwasnotvalidthatwassuppliedforQueu

hadoop HDFS the Installation domain ibm-mq flume

hadoop - 根据 dfsadmin 命令，HDFS 配置容量小于原始磁盘容量

我在VMWare工作站中使用ClouderaManager5.4.1实现了2节点集群，其中包括Hbase、Impala、Hive、Sqoop2、Oozie、Zookeeper、NameNode、SecondaryName和YARN等组件。我为每个节点模拟了3个磁盘驱动器，其中包括用于操作系统的sda、用于Hadoop存储的sdb和sdc。因为我已经为每个节点上的Hadoop存储分配了16GB的sdb1和16GB的sdc1。因此，我假设我的HDFS存储总容量(包括两个节点)应该是64GB。但是当使用dfsadmin命令并使用NameNodeUI检查输出时，我看到“配置的容量小于为HDFS

dfsadmin hadoop Remaining Used Cache hdfs hadoop-yarn cloudera

hadoop - 写入 hdfs 时出现 Spark Socket 超时问题

我正在尝试处理配置单元查询并以ORC格式写入HDFS。但是我遇到了超时问题。我检查了spark-default.conf，但是没有超时设置，我应该添加它吗？请让我知道要进行的更改temp=sqlContext.sql("""query""")temp.write.format("orc").option("header","true").save("hdfs://app/Quality/spark_test/")附上错误日志:org.apache.hadoop.net.ConnectTimeoutException:CallFrom..toapp:8020failedonsockett

时出 hadoop apache java apache-spark hive timeout hdfs

shell - hdfs 删除超过 7 天的目录

我有这样的存档目录结构/archivedData/Mappings/Web/NOW/,其中NOW是当前日期:现在=$(日期+"%Y%m%d%H%M")。我必须从hdfs中删除超过7天的NOW目录。最佳答案这可以通过awk和date命令来实现，下面是shell脚本#!/bin/bashhadoopfs-ls/archivedData/Mappings/Web/NOW/|whilereadpath;dodir_date=`echo$path|awk'{print$6}'`|cut-d'/'-f5purge_criteria=`dat

shell hdfs code section date hadoop

hadoop - hdfs-计数 : Illegal option -v

我试图获取标题，但它说非法选项-vhdfsdfs-count-q-h-vhdfs_path-count:Illegaloption-vHadoop版本:Hadoop2.6.0.3.0.0.0-249来源链接:hdfscount 最佳答案版本很重要。您链接上的文档与hadoop2.7相关。似乎选项-v在Hadoop2.6中不存在这是hadoop2.6的文档:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/FileSystemShell.h

Illegal hadoop section count command-line hdfs bigdata

106 107 108109110 111 112