hdfs

java - 无法使用本地 hadoop 连接 azure blob 存储

同时尝试将本地hadoop与AZUREBLOB存储连接(即使用blob存储作为HDFS)与Hadoop版本-2.7.1，抛出异常这里我通过设置属性成功组建了本地集群fs.default.namewasb://account@storage.blob.core.windows.net然后是core-site.xml中blob存储的键值。在列出文件或对blob存储进行HDFS操作时，出现以下异常ls:NoFileSystemforscheme:wasb任何人请指导我解决上述问题。最佳答案您需要添加hadoop-azure.jar在h

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗？当我总结“hdfsdfs-du/”的输出时，与“hdfsdfsadmin-report”(“DFSUsed”行)相比，我总是消耗更少的空间。是否有du没有考虑的数据？最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子，通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况，同时考虑了数据复制。所以当从dfs-ud命令获取数字时，它应该大几倍。

amp 34 section hdfs code hadoop

scala - 获取 HDFS 中 Parquet 文件的大小，以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录，每个目录包含几千个小的(大多数使用以下代码，我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小，因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做？或者在Spar

Parquet scala section hadoop apache-spark hdfs

hadoop - 无法创建目录/home/hadoop/hadoopinfra/hdfs/namenode/current

我得到了错误Cannotcreatedirectory/home/hadoop/hadoopinfra/hdfs/namenode/current尝试在本地Mac上安装hadoop时。这可能是什么原因？仅供引用，我将我的xml文件放在下面:mapred-site.xml:mapreduce.framework.nameyarnhdfs-site.xml:dfs.replication1dfs.name.dirfile:///home/hadoop/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop/hadoopinfra/h

hadoop hadoopinfra gt lt property hdfs

hadoop - 以伪分布式hadoop方式管理hdfs

我想在我的四核机器上用hadoop和mahout做一些计算，所以我在伪分布式模式下使用hadoop。问题是我的根驱动器上的空间有限，所以我如何配置它以使用其他外部硬盘驱动器上的可用空间。最佳答案您可以配置hdfs存储数据的位置。将以下内容添加到您的conf/hdfs-site.xml中:dfs.data.dir__path_to_where_you_want_to_store_your_data/hdfs/data/dfs.name.dir__path_to_where_you_want_to_store_your_data/h

hadoop hdfs section gt

hadoop - 在 Hive 中， "Load data local inpath"是覆盖现有数据还是追加？

我希望在cron上运行到Hive的导入，并且希望只使用“将数据本地输入路径‘/tmp/data/x’加载到表X”到表中就足够了。后续命令会覆盖表中已有的内容吗？还是会追加？最佳答案本站http://wiki.apache.org/hadoop/Hive/LanguageManual在处理Hive时是你的friend。:)解决将数据加载到Hive的页面是http://wiki.apache.org/hadoop/Hive/LanguageManual/DML该页面指出iftheOVERWRITEkeywordisusedthent

amp hadoop section Hive the hbase hdfs

hadoop - hive/hadoop 如何确保每个映射器都处理本地数据？

困扰我的2个基本问题:我如何确定配置单元用于存储我的表的32个文件中的每一个都位于其唯一的机器上？如果发生这种情况，我如何确定如果hive创建了32个映射器，它们中的每一个都将处理其本地数据？hadoop/hdfs是否保证了这种魔力，或者作为智能应用程序的hive是否确保它会发生？背景:我有一个由32台机器组成的Hive集群，并且:我所有的表都是用"CLUSTEREDBY(MY_KEY)INTO32BUCKETS"创建的我使用hive.enforce.bucketing=true;我验证过，确实每个表都存储为32个文件在user/hive/warehouse中我使用的HDFS复制因子为

射器 hadoop section li hive hdfs

hadoop - 如何通过浏览器从HDFS读取文件

如何提供HDFS文件的链接，以便单击该url将下载HDFS文件..请提供输入...谢谢MRK 最佳答案检查HDFSProxyGuide.还有Hoop这是contributed到Cloudera的Hadoop。目前它的目标是0.24版本。但是，可以使用HoopSite中的说明手动构建、安装和配置它。.虽然HDFSProxy仅支持W，但HOOP支持R/W到HDFS。计划用Hoop替换HDFSProxy。虽然上述选项是基于代理的，但另一种选择是在没有代理的情况下直接访问NameNode。浏览文件系统(http://namenode:50

hadoop HDFS section noreferrer noopener

hadoop - HDFS 目录的 "t"权限是什么？

在ClouderaHue中看到的HDFS目录似乎具有以下权限标志:drwxrwxrwxt我知道这是一个目录(d)，所有用户都可以在读/写模式下使用(rw)，并且所有用户都可以访问child(x)。最后一个标志t是什么意思？最佳答案 t标志称为粘性位。粘滞位是在目录上设置的权限位，只允许该目录中文件的所有者或root用户删除或重命名文件。没有其他用户具有删除其他用户创建的文件所需的权限。这是一种避免删除关键文件夹及其内容(子目录和文件)的安全措施，尽管其他用户拥有完全权限。关于hado

amp hadoop section em code posix hdfs

hadoop - Hive 和 Hadoop MapReduce 之间的关系？

是否有任何连接到reduce或map任务的Hive内部进程？添加到那个!Hive如何与MapReduce结合使用？工作是如何安排的？查询结果如何返回给hivedriver？最佳答案对于HIVE，没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3)，仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解，HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho

MapReduce hadoop section strong Hive hdfs

89 90 919293 94 95