草庐IT

java - 无法使用本地 hadoop 连接 azure blob 存储

同时尝试将本地hadoop与AZUREBLOB存储连接(即使用blob存储作为HDFS)与Hadoop版本-2.7.1,抛出异常这里我通过设置属性成功组建了本地集群fs.default.namewasb://account@storage.blob.core.windows.net然后是core-site.xml中blob存储的键值。在列出文件或对blob存储进行HDFS操作时,出现以下异常ls:NoFileSystemforscheme:wasb任何人请指导我解决上述问题。 最佳答案 您需要添加hadoop-azure.jar在h

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗?当我总结“hdfsdfs-du/”的输出时,与“hdfsdfsadmin-report”(“DFSUsed”行)相比,我总是消耗更少的空间。是否有du没有考虑的数据? 最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子,通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况,同时考虑了数据复制。所以当从dfs-ud命令获取数字时,它应该大几倍。

scala - 获取 HDFS 中 Parquet 文件的大小,以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录,每个目录包含几千个小的(大多数使用以下代码,我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小,因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做?或者在Spar

hadoop - 无法创建目录/home/hadoop/hadoopinfra/hdfs/namenode/current

我得到了错误Cannotcreatedirectory/home/hadoop/hadoopinfra/hdfs/namenode/current尝试在本地Mac上安装hadoop时。这可能是什么原因?仅供引用,我将我的xml文件放在下面:mapred-site.xml:mapreduce.framework.nameyarnhdfs-site.xml:dfs.replication1dfs.name.dirfile:///home/hadoop/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop/hadoopinfra/h

hadoop - 以伪分布式hadoop方式管理hdfs

我想在我的四核机器上用hadoop和mahout做一些计算,所以我在伪分布式模式下使用hadoop。问题是我的根驱动器上的空间有限,所以我如何配置它以使用其他外部硬盘驱动器上的可用空间。 最佳答案 您可以配置hdfs存储数据的位置。将以下内容添加到您的conf/hdfs-site.xml中:dfs.data.dir__path_to_where_you_want_to_store_your_data/hdfs/data/dfs.name.dir__path_to_where_you_want_to_store_your_data/h

hadoop - 在 Hive 中, "Load data local inpath"是覆盖现有数据还是追加?

我希望在cron上运行到Hive的导入,并且希望只使用“将数据本地输入路径‘/tmp/data/x’加载到表X”到表中就足够了。后续命令会覆盖表中已有的内容吗?还是会追加? 最佳答案 本站http://wiki.apache.org/hadoop/Hive/LanguageManual在处理Hive时是你的friend。:)解决将数据加载到Hive的页面是http://wiki.apache.org/hadoop/Hive/LanguageManual/DML该页面指出iftheOVERWRITEkeywordisusedthent

hadoop - hive/hadoop 如何确保每个映射器都处理本地数据?

困扰我的2个基本问题:我如何确定配置单元用于存储我的表的32个文件中的每一个都位于其唯一的机器上?如果发生这种情况,我如何确定如果hive创建了32个映射器,它们中的每一个都将处理其本地数据?hadoop/hdfs是否保证了这种魔力,或者作为智能应用程序的hive是否确保它会发生?背景:我有一个由32台机器组成的Hive集群,并且:我所有的表都是用"CLUSTEREDBY(MY_KEY)INTO32BUCKETS"创建的我使用hive.enforce.bucketing=true;我验证过,确实每个表都存储为32个文件在user/hive/warehouse中我使用的HDFS复制因子为

hadoop - 如何通过浏览器从HDFS读取文件

如何提供HDFS文件的链接,以便单击该url将下载HDFS文件..请提供输入...谢谢MRK 最佳答案 检查HDFSProxyGuide.还有Hoop这是contributed到Cloudera的Hadoop。目前它的目标是0.24版本。但是,可以使用HoopSite中的说明手动构建、安装和配置它。.虽然HDFSProxy仅支持W,但HOOP支持R/W到HDFS。计划用Hoop替换HDFSProxy。虽然上述选项是基于代理的,但另一种选择是在没有代理的情况下直接访问NameNode。浏览文件系统(http://namenode:50

hadoop - HDFS 目录的 "t"权限是什么?

在ClouderaHue中看到的HDFS目录似乎具有以下权限标志:drwxrwxrwxt我知道这是一个目录(d),所有用户都可以在读/写模式下使用(rw),并且所有用户都可以访问child(x)。最后一个标志t是什么意思? 最佳答案 t标志称为粘性位。粘滞位是在目录上设置的权限位,只允许该目录中文件的所有者或root用户删除或重命名文件。没有其他用户具有删除其他用户创建的文件所需的权限。这是一种避免删除关键文件夹及其内容(子目录和文件)的安全措施,尽管其他用户拥有完全权限。 关于hado

hadoop - Hive 和 Hadoop MapReduce 之间的关系?

是否有任何连接到reduce或map任务的Hive内部进程?添加到那个!Hive如何与MapReduce结合使用?工作是如何安排的?查询结果如何返回给hivedriver? 最佳答案 对于HIVE,没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3),仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解,HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho