hdfs_clusters

java - 使用 Java API 的 hdfs 问题

我使用以下代码删除了hdfs文件系统上的文件conf=neworg.apache.hadoop.conf.Configuration();//TODO:ChangeIPconf.set("fs.defaultFS","hdfs://aaa.bbb.com:1234/user/hdfs");conf.set("hadoop.job.ugi","hdfs");conf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());conf.set("fs.file.impl",org.apa

Hadoop HDFS 没有均匀分布数据 block

我目前正在运行一个有2个节点的集群。1个节点是主/从节点，另一个节点只是从节点。我有一个文件，我将block大小设置为该文件大小的一半。那我做hdfsdfs-putfile/文件被复制到HDFS没问题，但是当我检查HDFS站点时，我看到创建的两个block都在一个数据节点中(这些block在我使用-put命令的数据节点上)。我什至尝试调用平衡器脚本，但两个block仍在同一个数据节点上。我需要在所有节点之间(尽可能多地)均匀分布数据。我是不是漏掉了什么？最佳答案如hdfsdfs-ls输出所示，您的复制因子设置为1，因此没有令人信

均匀 Hadoop code section block filesystems hdfs hadoop-yarn

hadoop - 使用 JAVA API 授予 hdfs 目标目录的权限

每当我使用JAVAAPI将数据放入hdfs时，我必须授予hdfs目标目录的权限。我尝试了以下代码:importjava.io.BufferedInputStream;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileInputStream;`entercodehere`importjava.io.FileOutputStream;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.net.URI;importjava.n

hadoop JAVA apache hdfs

java - hadoop 中不推荐使用 hdfs 命令

我正在关注thisprocedure(YouTubelink)。在执行命令c:/hadoop-2.3.0/bin/hadoopnamenode-format时，我收到以下错误消息**DEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.Exceptioninthread"main"java.lang.NoClassDefFountError**我正在使用jdk-6-windows-amd64.exe。如何解决这个问题？最佳答案

hadoop java strong section hadoop-streaming hadoop2 hadoop-plugins

Hadoop - HDFS - 查看文件如何拆分的命令

HadoopFsShell中是否有命令行(或hdfs命令)来查看文件的拆分情况或查看文件在放入HDFS时如何在数据节点上拆分？最佳答案 hdfsfsck似乎是您所追求的:$hdfsfsck/import/collections/part-00000-files-blocksConnectingtonamenodeviahttp://vm28-hulk-priv:50070FSCKstartedbyusrhadoop(auth:SIMPLE)from/10.237.241.28forpath/import/collections/p

Hadoop HDFS section blocks collections

java - 是否可以从非 HDFS 文件系统 HBASE 连接 HADOOP？

hbase-site.xml@HBase的配置hbase.rootdirfile:///D:/LocalData/HBASEDATA/ 最佳答案 HBase使用Hadoop来利用分布式文件系统和强大的容错特性。如果您计划为Hbase使用非HDFS文件系统，它仍然可以工作。如果您不想使用HDFS，您将无法获得HDFS的上述优势，那么连接到Hadoop就毫无意义。如果您的数据跨越多台机器，我建议使用HDFS文件系统。然后，您可以使用hdfs路径设置上述属性。hdfs://nn:port/hbase

HADOOP HBASE section HDFS stackoverflow java eclipse

hadoop - 用于查询 HDFS 上的数据的纯 spark 与 spark SQL

我在hdfs集群上有(表格)数据，需要对其进行一些稍微复杂的查询。我预计将来会用其他数据多次面对同样的情况。所以，问题:在执行此类任务时选择在何处使用(纯)Spark以及在何处使用Spark-SQL时要考虑哪些因素？以下是我能想到的选择因素:熟悉语言:在我的例子中，我更像是一个数据分析师而不是一个数据库专家，所以这会导致我使用spark:与在SQL中相比，我更愿意思考如何(有效地)在Java/Scala中实现数据选择。然而，这主要取决于查询。序列化:我认为无需将自制的jar+dep发送给sparkworker(？)就可以运行Spark-SQL查询。但是，返回的数据是原始数据，应该在本地

spark hadoop section strong apache-spark apache-spark-sql

java - 在映射器中运行 hdfs -text 命令并使用输出

有没有办法在映射器中运行hadoop命令？例如我要运行hdfsdfs-text/path/to/file我会将该输出用于我的映射器逻辑。或者有其他选择吗？例如运行命令hdfsdfs-text/path/to/file作为Java的子进程最佳答案更好的是使用JavaHDFSAPI打开HDFS文件并将内容读入您可以使用的变量。例如:InputStreamis=FileSystem.get(yourConfigurationObject).open(newPath("/path/to/file"));

中运射器 section java hadoop hdfs

apache - 无法将数据从水槽提取到 hdfs hadoop 以获取日志

我正在使用以下配置将数据从日志文件推送到hdfs。agent.channels.memory-channel.type=memoryagent.channels.memory-channel.capacity=5000agent.sources.tail-source.type=execagent.sources.tail-source.command=tail-F/home/training/Downloads/log.txtagent.sources.tail-source.channels=memory-channelagent.sinks.log-sink.channel=me

水槽 apache execAgent agent hdfs hadoop flume

hadoop - 如何使文件在 hdfs 中不可删除？

我有一个要求，即我想让进入hdfs的文件不可删除。是否有任何选项可以做到这一点？实际上在linux中，我们有一个命令chattr来使文件不可变/undeletable以便在root删除该不可变标志(chattr+i)之前没有人可以删除该文件，hadoop中是否有任何此类设施？。任何建议表示赞赏。提前致谢。最佳答案我不相信有任何等同于chattr的东西。如果你的主要目的是阻止人们错误地这样做，将所有者更改为hdfs(Hadooproot)，并设置它以便只有root可以通过文件权限删除它。但是默认情况下，任何人都可以通过命令行以ro

hadoop hdfs section strong cloudera cloudera-cdh

111 112 113114115 116 117