hdfs_clusters

java - NoSuchMethodError 使用 Builder 将 Avro 对象写入 HDFS

将对象写入HDFS时出现此异常:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.avro.Schema$Parser.parse(Ljava/lang/String;[Ljava/lang/String;)Lorg/apache/avro/Schema;atcom.blah.SomeType.(SomeType.java:10)它在生成的代码中引用的行是这样的:publicclassSomeTypeextendsorg.apache.avro.specific.SpecificRecordBaseimpleme

hadoop - hdfs dfs 命令很慢 - 有没有办法让它更快？

我在Hadoop2.2.0上运行单节点设置。我的理解是hdfsdfs-ls很慢，因为它每次被调用时都会启动一个JVM。有没有办法让它保持JVM运行，以便简单的命令可以更快地完成？最佳答案我想告知您我们为解决此问题所做的解决方案。我们创建了一个新的实用程序-HDFSShell以更快地使用HDFS。https://github.com/avast/hdfs-shellHDFSDFS为每个命令调用启动JVM，HDFSShell只启动一次-这意味着当您需要更频繁地使用HDFS时速度会大大提高可以使用简短的方式使用命令-例如。hdfsdf

hadoop hdfs code section strong

hadoop - 如何将 Kafka 主题加载到 HDFS？

我正在使用hortonworks沙箱。创建主题:./kafka-topics.sh--create--zookeeper10.25.3.207:2181--replication-factor1--partitions1--topiclognew跟踪apache访问日志目录:tail-f/var/log/httpd/access_log|./kafka-console-producer.sh--broker-list10.25.3.207:6667--topiclognew在另一个终端(kafkabin)启动消费者:./kafka-console-consumer.sh--zookee

hadoop Kafka data strong section apache-kafka

java - 用于在 hdfs 中列出目录的主机和端口

首先，我使用HortonWorksSandbox作为Hadoopdist，完全没有自定义配置。一旦连接到沙箱，我就可以列出HDFS目录的文件:[root@sandbox~]#hadoopfs-lshdfs:///user/guest但如果我尝试指定主机和端口，我只会收到错误消息:[root@sandbox~]#hadoopfs-lshdfs://localhost:8020/user/guestls:从sandbox.hortonworks.com/10.0.2.15到localhost:8020的调用在连接异常时失败:java.net.ConnectException:Connexi

java hdfs code sandbox hortonworks hadoop hortonworks-data-platform

list - 如何递归列出 HDFS 的子目录？

我在HDFS中递归地创建了一组目录。如何列出所有目录？对于普通的unix文件系统，我可以使用下面的命令来做到这一点find/path/-typed-print但我想为HDFS获得类似的东西。最佳答案要递归地列出目录内容，可以使用hadoopdfs-lsr/dirname命令。要仅过滤目录，您可以在上述命令的输出中grep"drwx"(因为所有者对目录具有rwx权限)。因此整个命令将如下所示。$hadoopdfs-lsr/sqoopO7|grepdrwx 关于list-如何递归列出HD

子目子目录 section code stackoverflow list hadoop find hdfs

hadoop - 没有 Map/Reduce 的 HDFS 分布式读取

是否可以在一台机器上使用HDFS客户端实现从HDSF集群的分布式读取？我用一个由3个数据节点(DN1、DN2、DN3)组成的集群进行了实验。然后我从位于DN1上的客户端程序运行10个同时读取10个独立文件，它似乎只从DN1读取数据。其他数据节点(DN2、DN3)显示为零事件(从调试日志判断)。我检查了所有文件的block是否在所有3个数据节点上都被复制了，所以如果我关闭DN1，那么数据将从DN2读取(仅DN2)。增加读取的数据量没有帮助(尝试从2GB到30GB)。由于我需要读取多个大文件并仅从中提取少量数据(几Kb)，因此我想避免使用map/reduce，因为它需要设置更多服务并且还需

hadoop Reduce section noreferrer hdfs

java - 使用 Java 访问 HDFS 中的文件

我正在尝试使用JavaAPI访问HDFS中的文件，但每次我都找不到文件。我用来访问的代码是:-Configurationconf=newConfiguration();conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_CORE_SITE);conf.addResource(FileUtilConstants.ENV_HADOOP_HOME+FileUtilConstants.REL_PATH_HDFS_SITE);try{FileSystemfs=FileSystem.get(co

java 34 hadoop HadoopFileChecksumUtils hdfs

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库，将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入，并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能？这仅取决于程序员的能力，或者是否有任何性能理由这样做？有没有Spark可以做而HBASE不能做的事情？2)源于上一个问题，什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS？最佳答案 1)Whataretheaddedcapabili

Spark hadoop HBASE section apache-spark hdfs

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时，我的所有节点都已启动并正在运行，但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时，我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点，但错误仍然存在。谁能帮我解决这个问题。最佳答案检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

Namenode-HDFS Connection code hadoop section hdfs

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0，并且正在试用它。我正在尝试伪分布式设置，并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步，即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

directory hadoop section code mapreduce hdfs hadoop2

57 58 596061 62 63