hdfs_clusters_草庐IT

hadoop - 从远程 HDFS 检索文件

我的本地机器没有安装hdfs。我想从远程hdfs集群中检索文件。实现这一目标的最佳方法是什么？我是否需要从hdfsget文件到其中一台集群机器fs，然后使用ssh检索它们？我希望能够通过bash脚本以编程方式执行此操作。最佳答案步骤如下:确保您的主机和目标集群之间存在连接将您的主机配置为客户端，您需要安装兼容的hadoop二进制文件。此外，您的主机需要使用相同的操作系统运行。确保您拥有相同的配置文件(core-site.xml、hdfs-site.xml)您可以运行hadoopfs-get命令直接获取文件还有其他选择如果配置

hadoop - 将 HDFS 从本地磁盘替换为 s3 出现错误 (org.apache.hadoop.service.AbstractService)

我们正在尝试设置Cloudera5.5，其中HDFS将仅在s3上工作，因为我们已经在Core-site.xml中配置了必要的属性fs.s3a.access.key################fs.s3a.secret.key###############fs.default.names3a://bucket_Namefs.defaultFSs3a://bucket_Name设置完成后，我们可以通过命令浏览s3存储桶的文件hadoopfs-ls/它显示了仅在s3上可用的文件。但是当我们启动yarn服务时，JobHistory服务器无法启动并出现以下错误，而在启动pig作业时，我们会遇

hadoop - HDFS 在存储数据时是否加密或压缩数据？

例如，当我将文件放入HDFS时$./bin/hadoop/dfs-put/source/fileinput文件在存储时是否压缩？文件在存储时是否加密？是否有我们可以指定的配置设置来更改它是否加密？最佳答案 ThereHDFS中没有隐式压缩。换句话说，如果你想让你的数据被压缩，你必须那样写。如果您计划编写mapreduce作业来处理压缩数据，您将需要使用可拆分压缩格式。Hadoop可以处理压缩文件，这是一个很好的article在上面。此外，中间和最终MR输出可以是compressed.有一个JIRA关于“HDFS中的透明压缩”，但我

hadoop - Spark / yarn : File does not exist on HDFS

我在AWS上设置了一个Hadoop/Yarn集群，我有一个主节点和3个从节点。我已经验证我有3个事件节点在端口50070和8088上运行。我在客户端部署模式下测试了一个spark作业，一切正常。当我尝试使用./spark-2.1.1-bin-hadoop2.7/bin/spark-submit--masteryarn--deploy-modeclusterip.py提交作业时。我收到以下错误。Diagnostics:Filedoesnotexist:hdfs://ec2-54-153-50-11.us-west-1.compute.amazonaws.com:9000/user/ubu

scala - 在 spark-streaming 上下文中将 RDD 写入 HDFS

我有一个带有spark1.2.0的spark流环境，我从本地文件夹中检索数据，每次我发现一个新文件添加到该文件夹时，我都会执行一些转换。valssc=newStreamingContext(sc,Seconds(10))valdata=ssc.textFileStream(directory)为了对DStream数据进行分析，我必须将其转换为数组vararr=newArrayBuffer[String]();data.foreachRDD{arr++=_.collect()}然后我使用获得的数据提取我想要的信息并将它们保存在HDFS上。valmyRDD=sc.parallelize

hadoop - 除非被杀死，否则 Flume 不会写入 HDFS

我关注了link用于设置TwitterSource和HDFS接收器。用于启动代理的命令:bin/flume-ngagent-nTwitterAgent-cconf-fconf/flume-conf.properties-Dflume.root.logger=DEBUG,console我成功地做到了这一点，但现在有一个问题。在停止水槽代理之前不会写入输出。一旦我杀死我的水槽代理，它就会被写入HDFS。这里有两个问题:1)如何停止flumeagent-除了CTRL+C之外还有什么办法吗。2)我可以让flume-agent随时写入HDFS，而不必杀死代理吗。注意:终止进程后，写入的文件扩展名

scala - 如何列出 Spark Scala shell 中 HDFS 位置中的所有 csv 文件？

这样做的目的是为了在HDFS的第二个位置操作和保存每个数据文件的副本。我会用RddName.coalesce(1).saveAsTextFile(pathName)将结果保存到HDFS。这就是为什么我想单独处理每个文件，尽管我确信性能不会那么高效。但是，我还没有确定如何将CSV文件路径列表存储到字符串数组中，然后使用单独的RDD遍历每个路径。让我们使用以下匿名示例作为HDFS源位置:/data/email/click/date=2015-01-01/sent_20150101.csv/data/email/click/date=2015-01-02/sent_20150102.csv/

hadoop fs 命令显示本地文件系统而不是 hdfs

为了组成一个hadoop集群，我在几台笔记本电脑上安装了hadoop。首先，我们以伪分布式模式安装，除了一个非常完美的地方(即所有服务都在运行，当我使用hadoopfs进行测试时，它显示了hdfs).在后面提到的笔记本电脑(有问题的那台)中，`hadoopfs-ls命令显示本地目录的信息不是hdfs，命令-cat、-mkdir、-put也会发生同样的情况。我可能做错了什么？任何帮助将不胜感激这是我的core-site.xmlhadoop.tmp.dir/home/hduser/hdfs_dir/tmpfs.default.namehdfs://localhost:54310.我必须说，

hadoop - 将文件导入HDFS的不同方式

我想知道将数据导入HDFS的不同方式有哪些。我是Hadoop的新手，之前是一名JavaWeb开发人员。我想知道我是否有正在创建日志文件的Web应用程序，如何将日志文件导入HDFS。最佳答案有很多方法可以将数据提取到HDFS中，让我在这里尝试说明它们:hdfsdfs-put-将文件从本地文件系统插入到HDFS的简单方法HDFSJavaAPISqoop-将数据传入/传出数据库Flume-流式文件、日志Kafka-分布式队列，主要用于近实时流处理Nifi-在Apache孵化项目，无需进行大量更改即可将数据移动到HDFS将Web应用程序

performance - 小文件的 HDFS 性能

我是Hadoop新手。最近我正在尝试处理(仅读取)hdfs/hadoop上的许多小文件。平均文件大小约为1kb，文件数量超过10M。由于某些限制，该程序必须用C++编写。这只是一个性能评估，所以我只使用5台机器作为数据节点。每个数据节点有5个数据盘。我编写了一个小型C++项目来直接从硬盘读取文件(而不是从HDFS)以构建性能基线。该程序将为每个磁盘创建4个读取线程。性能结果是每个磁盘大约有14MB/s。总吞吐量约为14MB/s*5*5=350MB/s(14MB/s*5磁盘*5台机器)。但是，当这个程序(仍然使用C++，动态链接到libhdfs.so，创建4*5*5=100个线程)从hd