hdfs_clusters

security - HDFS 数据节点不是以 kerberos 开头

在Windows8中使用kerberos配置HDFS。Namenode成功登录并启动。Datanode未启动但登录成功。异常14/12/1017:51:55WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable14/12/1017:52:00INFOsecurity.UserGroupInformation:Loginsuccessfulforuserkumar@KUMAR.COMusingkeytabfileC

hadoop - hdfs 目录位于 linux 中的什么位置？

运行我的第一个map-reduce程序。我使用在hdfs中创建了一个目录hdfsdfs-mkdirinput以这种方式创建的目录驻留在hdfs主目录中，即/usr/hdfs(..?)但我无法在我的linux操作系统的任何地方找到我在上面创建的目录“input”。有什么想法吗？最佳答案实际上我们不能直接看到hdfs目录所以有两种方法可以看到hdfs文件系统位置的文件第一种方法来自终端hdfsdfs-ls/user/cloudera这样你就可以在'cloudera'命名目录中看到hdfs文件系统中的文件第二种方法是使用浏览器。htt

位于 hadoop section hdfs code bigdata hadoop2

hadoop - 如果我们使用小文件，HDFS 是否会丢失内存？

我在下面引用了Hadoop-权威指南:但是请注意，小文件占用的磁盘空间不会超过存储文件原始内容所需的空间。例如，以128MB的block大小存储的1MB文件使用1MB的磁盘空间，而不是128MB，这是我的问题1)以128MB的block大小存储的1MB文件使用1MB的磁盘空间，而不是128MB。)hdfs如何使用该block中剩余的127M？2)是否有机会在同一个block中存储另一个文件？最佳答案 1MB文件存储在128MBblock中，有3个副本。然后文件将存储在3个block中，并且仅使用3*1=3MB而不是3*128=38

hadoop HDFS stackoverflow section block

hadoop - Spark 流无法读取从 hdfs 中的水槽创建的文件

我创建了一个实时应用程序，在其中使用flume将数据流从weblogs写入hdfs，然后使用sparkstream处理该数据。但是当flume在hdfs中写入和创建新文件时，spark流无法处理这些文件。如果我使用put命令将文件放入hdfs目录，则sparkstream能够读取和处理文件。任何有关相同的帮助都会很棒。最佳答案您自己已经检测到问题:当数据流继续时，HDFS文件被“锁定”并且不能被任何其他进程读取。相反，正如您所经历的那样，如果您放入一批数据(这是您的文件，一批，而不是流)，一旦上传就可以读取了。无论如何，不是

水槽 hadoop section Spark 放入 apache-spark hdfs spark-streaming flume-ng

Hadoop - 从本地到 HDFS 的递归复制/放置

我可以使用hadoopfs-putlocalhdfs从本地复制到HDFS。有没有办法做递归放置？试过-put-r但它不起作用。最佳答案试试这个命令hadoopfs-copyFromLocaldocs/*/input/其中/input/是您要存储的HDFS位置的路径。hadoopfs-copyFromLocallocal/*/Hdfs/ 关于Hadoop-从本地到HDFS的递归复制/放置，我们在StackOverflow上找到一个类似的问题： https:/

Hadoop HDFS section blockquote code

java - 如何在spark中读取HDFS序列文件

我正在尝试将文件从HDFS(在本例中为s3)读入spark作为RDD。该文件位于SequenceInputFileFormat中。但是我无法将文件的内容解码为字符串。我有以下代码:packagecom.spark.example.ExampleSpark;importjava.util.List;importscala.Tuple2;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.JavaRDD;import

何在 spark import code java hadoop apache-spark hdfs

hadoop - 基于时间的桶记录(kafka-hdfs-connector)

我正在尝试使用Confluent平台提供的kafka-hdfs-connector将数据从Kafka复制到Hive表中。虽然我能够成功完成，但我想知道如何根据时间间隔对传入数据进行存储。例如，我希望每5分钟创建一个新分区。我尝试使用io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner和partition.duration.ms但我认为我做错了。我在Hive表中只看到一个分区，所有数据都进入该特定分区。像这样:hive>showpartitionstest;OKpartitionyear=2016/month=03/day=

kafka-hdfs-connector connector 39 strong minute hadoop hive apache-kafka kafka-consumer-api kafka-producer-api

scala - 如何在 spark-scala 中将 Iterable[String] 保存到 hdfs

valordersRDD=sc.textFile("/user/cloudera/sqoop_import/orders");valordersRDDStatus=ordersRDD.map(rec=>(rec.split(",")(3),1));valcountOrdersStatus=ordersRDDStatus.countByKey();valoutput=countOrdersStatus.map(input=>input._1+"\t"+input._2);如何将Iterable[String]的输出保存到spark-scala中的hdfs。可迭代[字符串]注意:ouput

scala 何在 section input output hadoop apache-spark mapreduce rdd

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容，因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常，但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索，但找不到任何解决方案。请帮忙最佳答案

fromFile Source code section scala hadoop apache-spark

hadoop - 是否可以在 2 个 Hdfs 目录(单独的集群)之间使用 distcp 来 distcp 文件(逗号分隔)？

我只需要distcpx个文件。找不到解决方法。一个想法是将它复制到一个临时目录，然后distcp该目录。完成后，我可以删除该临时目录。单独的distcp命令(针对每个文件)。这可能会很痛苦。不确定是否允许逗号分隔。有什么想法吗？提前致谢。最佳答案您可以将所有文件作为源传递给DistCp命令hadoopdistcphdfs://src_nn/var/log/spark/appHistory//\hdfs://src_nn/var/log/spark/appHistory//\....hdfs://src_nn/var/log/sp

distcp hadoop section code hdfs

204 205 206207208 209 210