hdfs

java - 从 REST API 轮询数据到 HDFS

我有一个博客提供了一个RESTAPI来下载数据。API提供主题列表(JSON格式)。可以迭代列表以下载每个主题的消息。我想每天下载论坛的所有消息，并存储在HDFS中。我正在考虑编写一个Java程序调用API来获取数据并使用HadoopAPI将其存储在HDFS上。我可以使用每日Oozie批处理运行Java程序。有更好的方法吗？也许将数据存储在本地文件系统上，最后将文件放在HDFS上。我想知道在这种情况下是否可以使用Flume，它的附加值是什么？提前致谢最佳答案这似乎是一个“简单”的程序。您可以使用任何语言/工具从restAPI读取

hadoop - 为什么我需要在 hdfs 中保留 hbase/lib 文件夹？

我有一个主集群，它在Hbase中有一些数据，我想复制它。我已经创建了一个备份集群并创建了我要复制的表的快照。我正在尝试将快照从源集群导出到目标，但出现了一些错误。我在执行./hbaseorg.apache.hadoop.hbase.snapshot.ExportSnapshot-snapshotmySnap-copy-tohdfs://198.58.88.11:9000/hbase作为执行的结果，我得到了SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/home/vagrant/hba

hadoop hbase apache java

具有无盘计算节点的 hadoop (HDFS)

我有一个小型集群，其中一个节点具有RAID存储，以及几个功能强大的无盘计算节点，这些节点通过PXE启动。所有节点都通过InfiniBand连接(以及用于引导的1G以太网)。我需要在这个集群上部署Hadoop。请建议最佳配置据我所知，默认配置意味着所有计算节点都有自己的小存储，但在我的情况下(如果我有NFS共享)它会通过网络制作太多副本。我找到了有关将Hadoop与Lustre结合使用的资源，但我不明白如何配置它最佳答案您所描述的可能是可行的，但您没有使用Hadoop功能，而是试图找到解决它们的方法。移动计算比移动数据便宜-数据局

无盘 hadoop section the share hdfs

macos - 无法找到或加载类 : org. apache.hadoop.hdfs.server.namenode.NameNode

我在我的mac上安装了hadoop，我按照hadoop安装一步一步来当我执行hdfsnamenode-formathadoop总是返回错误无法找到或加载类org.apache.hadoop.hdfs.server.namenode.NameNode这是我的/etc/profile:exportJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_25.jdk/contents/homeexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$C

NameNode HOME section hadoop macos

java - "cannot execute binary file: Exec format error"hdfs 命令

当我尝试运行命令时hdfsnodename-format我收到此错误消息:/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:cannotexecutebinaryfile:Execformaterror/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:Success现在，我打开了hdfs文件，这是第304行:exec"$JAVA"-Dproc_$COMMAND$JAVA_HEAP_MAX$HADOOP

amp execute section code pre java ubuntu hadoop hdfs

java - 我正在尝试在 hdfs 中格式化名称节点，但显示 : permission denied

我正在尝试格式化namenode。为此，我已经尝试过了。hduser@Ubuntu:/usr/hadoop/hadoop-2.7.1$bin/hdfsnamenode-format它说:bin/hdfs:line304:/root/software/jdk1.8.0_45/bin/java:Permissiondeniedbin/hdfs:line304:exec:/root/software/jdk1.8.0_45/bin/java:cannotexecute:Permissiondenied 最佳答案所以，您的安装很奇怪。看起

permission denied section code hdfs java hadoop permission-denied

Python 和 Hadoop - 使用 python 直接获取数据并将其写入 hdfs？

我想每天从yahoo/googlefinance获取与股票的eod价格相关的数据。这些价格应直接存储在HDFS文件中。我稍后可以在它上面制作外部表(使用HIVE)并用于进一步分析。所以，我不是在寻找基本的map-reduce，因为我没有这样的输入文件。python有没有连接器，可以在Hadoop中写入数据？最佳答案首先将数据转储到本地文件中。然后想办法把文件上传到HDFS。如果您在“边缘节点”(即一个Linux机器不是集群的一部分，但安装了所有Hadoop客户端和配置)，那么你就有了很好的旧HDFS命令行界面hdfsdfs-pu

接获并将 section blockquote code python hadoop

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本，它运行良好。当我在oozie中运行时，同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

python ImportError gt lt argument python-2.7 hadoop oozie cloudera-cdh

hadoop - 如何使用 Flume 将事件从运行在 Windows 10 IoT 上的 Raspberry Pi 记录到 HDFS

我想将我的LED闪烁(开/关)和不同的室温记录到HDFS。我找到了这个http://flume.apache.org/FlumeDeveloperGuide.html.它说“Flume目前支持Avro、log4j、syslog和HttpPOST(带有JSON主体)作为从外部源传输数据的方式”。我的问题是，如果我想将RaspberryPi生成的数据记录到HDFS，我应该使用什么。请给我一些教程链接或指导我。或者请让我知道最好的方法吗？希望我问的问题很简单。最佳答案免责声明-我不熟悉Flume。只是阅读你关于Flume支持日志记录的

Raspberry Windows section Flume 中运 hadoop raspberry-pi hdfs windows-10-iot-core

hadoop - HiveServer2在hdfs/tmp/hive/hive中生成了很多目录

我们使用Hiveserver2(在HortonworksHDP2.2发行版上)创建新集群。一段时间后，我们在hdfs上的/tmp/hive/hive中有超过1048576个目录，因为hive服务器在这个位置生成它。有人遇到过类似的问题吗？来自hive服务器的日志:2015-08-3106:48:15,828WARN[HiveServer2-Handler-Pool:Thread-1104]:conf.HiveConf(HiveConf.java:initialize(2499))-HiveConfofnamehive.heapsizedoesnotexist2015-08-3106:4

中生 hive HiveConf session HiveServer2-Handler-Pool hadoop hdfs bigdata hortonworks-data-platform

197 198 199200201 202 203