hdfs

hadoop - 为 hdfs namenode 禁用 Web UI

是否有禁用HDFSHTTP命令的配置？在没有Kerberos的情况下，我试图禁用对HDFS中文件的HTTP访问。最佳答案 WebHDFS应该默认被禁用。您可以通过在之间添加以下内容来修改hdfs-site.xml来禁用WebHDFS和标签。dfs.webhdfs.enabledtrueEnableordisablewebhdfs.Defaultstofalse 关于hadoop-为hdfsnamenode禁用WebUI，我们在StackOverflow上找到一个类似的问题：

hadoop - 混淆 HDFS 'pwd' 等价物

首先，我已经阅读了这篇文章:Isthereanequivalentto`pwd`inhdfs?.它说HDFS中没有这样的“密码”。但是，随着我按照Hadoop:SettingupaSingleNodeCluster的说明进行操作，我在这个命令上失败了:$bin/hdfsdfs-putetc/hadoopinputput:'input':Nosuchfileordirectory很奇怪，我第一次成功执行此命令我按照说明进行操作，但第二次失败。同样奇怪的是，我在我friend的计算机上成功执行此命令，该计算机具有与我相同的系统(Ubuntu14.04)和hadoop版本(2.7.1)。谁能

等价物混淆 hadoop code hdfs

hadoop - hadoop/hdfs 中的默认存储文件格式

我正在设置一个新的hadoop集群(现阶段处于实验阶段)。我希望将其配置为无论何时将文件复制到集群(通过copyFromLocal或使用sqoop等)，hadoop/hdfs都应以parquet文件格式存储数据。我对此是否期待正确？可能吗？我认为在hdfs级别的某处应该有一个配置参数，我可以在其中指定存储数据时使用的格式，但不知何故找不到。想知道我是否遗漏了什么。最佳答案不，你是对的-没有HDFS级别的配置。每次对某些数据进行操作时，您都必须设置存储格式。想象一下如果每个文件都自动转换为Parquet将会造成多大的损失。应用程序

hadoop hdfs section Parquet code compression

hadoop hdfs 目录大小显示为 0

每次我使用hadoopfs-ls/path_to_directory或hadoopfs-ls-h/path_to_directory，结果是这样的drwxr-xr-x-hadoopsupergroup02016-08-0500:22/user/hive-0.13.1/warehouse/t_b_citydrwxr-xr-x-hadoopsupergroup02016-06-1516:28/user/hive-0.13.1/warehouse/t_b_mobile无论有无文件，HDFS内部目录大小始终显示为0。从WebUI浏览会得到与以下相同的结果:drwxr-xr-xhadoopsup

hadoop hdfs strong section

hadoop - 文件或目录如何存储在 hadoop hdfs 中

我已经使用下面的命令在hdfs中创建了一个文件hdfsdfs-touchz/hadoop/dir1/file1.txt我可以使用下面的命令查看创建的文件hdfsdfs-ls/hadoop/dir1/但是，我无法使用linux命令(使用find或locate)找到位置本身。我在互联网上搜索并找到了以下链接。HowtoaccessfilesinHadoopHDFS?.它说，hdfs是虚拟存储。在那种情况下，它如何划分需要使用哪个或多少，元数据存储在哪里我在hdfs-site.xml中提到的虚拟存储是否采用datanode位置来存储所有数据？我查看了数据节点的位置，并且有可用的文件。但是我找

hadoop hdfs code section hadoop2

hadoop - Kafka 主题与 Kafka Connect to HDFS 合并

是否可以配置KafkaConnect的HDFS连接器以将多个单独的主题写入/合并到一个文件中？主题将包含具有相同avro架构的消息，我希望KafkaConnect充当这些Kafka主题和HDFS之间的中介。最坏的情况是主题内容在写入HDFS后可能会合并，但我觉得使用HDFS连接器应该可以实现更简洁、更快速的方法。最佳答案现在HDFS连接器会将每个主题写入其自己的目录。你可以在写完之后在HDFS中组合目录，或者在写到HDFS之前在Kafka中组合topic，但是connector本身是不会做的。

Kafka Connect section HDFS hadoop apache-kafka confluent-platform apache-kafka-connect

python - 使用 hdfs3 读取文件失败

我正在尝试使用hdfs3模块使用Python读取HDFS上的文件。importhdfs3hdfs=hdfs3.HDFileSystem(host='xxx.xxx.com',port=12345)hdfs.ls('/projects/samplecsv/part-r-00000')这产生[{'block_size':134345348,'group':'supergroup','kind':'file','last_access':1473453452,'last_mod':1473454723,'name':'/projects/samplecsv/part-r-00000/','o

python hdfs3 39 hdfs samplecsv hadoop

java - 服务 'hdfs' 检查失败 : java.net.UnknownHostException - Hortonworks

嗨，我正在学习Hortonworks，我遇到了一个问题openambari->FilesView,orHive,Pig.我该如何解决这个问题，检测到的问题服务“hdfs”检查失败:java.net.UnknownHostException:sandbox.hortonworks.com折叠堆栈跟踪服务“hdfs”检查失败:java.lang.IllegalArgumentException:java.net.UnknownHostException:sandbox.hortonworks.comatorg.apache.hadoop.security.SecurityUtil.buil

UnknownHostException java org doFilter hadoop hdfs hortonworks-data-platform

hadoop - Spark Standalone 和 HDFS 的数据局部性

我有一个工作需要访问HDFS上的Parquet文件，我想尽量减少网络事件。到目前为止，我在相同的节点上启动了HDFSDatanodes和SparkWorker，但是当我启动我的工作时，数据局部性总是在任何地方，它应该是NODE_LOCAL，因为数据分布在所有节点中。我应该配置任何选项来告诉Spark在数据所在的位置启动任务吗？最佳答案您要查找的属性是spark.locality.wait。如果你增加它的值(value)，它将在更多的本地执行作业，因为spark不会仅仅因为数据所在的那个很忙就将数据发送给其他worker。虽然，将

Standalone hadoop section spark configuration apache-spark hdfs

python - 使用 python 在远程机器上列出 HDFS 目录

我正在使用python进行日志挖掘工作。在mapreduce之前，程序应该知道远程机器上的hdfs中有哪些文件，以制作日志挖掘对象文件列表。为此，我需要在远程计算机上执行hadoop命令hadoopfs-ls/var/log/*20161202*。在谷歌上长时间搜索后，我未能选择一个pyspark界面来获取文件列表。pyspark好像没有提供这样的接口(interface)。我看到一个SO回答说我需要使用hdfscli并将其导入到我的python脚本中。这也是唯一的办法吗？我不能相信Spark没有hdfs文件列表方法。最佳答案不

上列 python 39 ctsats supergroup hadoop hdfs pyspark

216 217 218219220 221 222