草庐IT

hdfs_rtp

全部标签

java - "cannot execute binary file: Exec format error"hdfs 命令

当我尝试运行命令时hdfsnodename-format我收到此错误消息:/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:cannotexecutebinaryfile:Execformaterror/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:Success现在,我打开了hdfs文件,这是第304行:exec"$JAVA"-Dproc_$COMMAND$JAVA_HEAP_MAX$HADOOP

java - 我正在尝试在 hdfs 中格式化名称节点,但显示 : permission denied

我正在尝试格式化namenode。为此,我已经尝试过了。hduser@Ubuntu:/usr/hadoop/hadoop-2.7.1$bin/hdfsnamenode-format它说:bin/hdfs:line304:/root/software/jdk1.8.0_45/bin/java:Permissiondeniedbin/hdfs:line304:exec:/root/software/jdk1.8.0_45/bin/java:cannotexecute:Permissiondenied 最佳答案 所以,您的安装很奇怪。看起

Python 和 Hadoop - 使用 python 直接获取数据并将其写入 hdfs?

我想每天从yahoo/googlefinance获取与股票的eod价格相关的数据。这些价格应直接存储在HDFS文件中。我稍后可以在它上面制作外部表(使用HIVE)并用于进一步分析。所以,我不是在寻找基本的map-reduce,因为我没有这样的输入文件。python有没有连接器,可以在Hadoop中写入数据? 最佳答案 首先将数据转储到本地文件中。然后想办法把文件上传到HDFS。如果您在“边缘节点”(即一个Linux机器不是集群的一部分,但安装了所有Hadoop客户端和配置),那么你就有了很好的旧HDFS命令行界面hdfsdfs-pu

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本,它运行良好。当我在oozie中运行时,同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

hadoop - 如何使用 Flume 将事件从运行在 Windows 10 IoT 上的 Raspberry Pi 记录到 HDFS

我想将我的LED闪烁(开/关)和不同的室温记录到HDFS。我找到了这个http://flume.apache.org/FlumeDeveloperGuide.html.它说“Flume目前支持Avro、log4j、syslog和HttpPOST(带有JSON主体)作为从外部源传输数据的方式”。我的问题是,如果我想将RaspberryPi生成的数据记录到HDFS,我应该使用什么。请给我一些教程链接或指导我。或者请让我知道最好的方法吗?希望我问的问题很简单。 最佳答案 免责声明-我不熟悉Flume。只是阅读你关于Flume支持日志记录的

hadoop - HiveServer2在hdfs/tmp/hive/hive中生成了很多目录

我们使用Hiveserver2(在HortonworksHDP2.2发行版上)创建新集群。一段时间后,我们在hdfs上的/tmp/hive/hive中有超过1048576个目录,因为hive服务器在这个位置生成它。有人遇到过类似的问题吗?来自hive服务器的日志:2015-08-3106:48:15,828WARN[HiveServer2-Handler-Pool:Thread-1104]:conf.HiveConf(HiveConf.java:initialize(2499))-HiveConfofnamehive.heapsizedoesnotexist2015-08-3106:4

hadoop - HDFS 联邦 : Submission of Map Reduce jobs among multiple Name nodes

根据HdfsFederation上的Apache文档,系统可通过多个名称节点的联合进行隔离扩展。多个名称节点/namespace为了横向扩展名称服务,联邦使用多个独立的名称节点/namespace。名称节点是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作block的公共(public)存储。我唯一的疑问:我没有看到名称节点之间有任何中央协调器,因为所有节点都在运行隔离。对如何提交和处理作业感到困惑。1)如果我提交一个map-reduce作业,哪个名称节点将处理它?或者2)客户端是否应该知道必须为其提交作业的名称节点?如果客户端不知道哪

java - 使用 Java API 将数据上传到 HDFS

我已经搜索了一段时间,但似乎没有一个解决方案适合我。非常简单-我想使用JavaAPI将数据从我的本地文件系统上传到HDFS。Java程序将在已配置为通过shell(即hdfsdfs-ls等)与远程Hadoop集群通信的主机上运行。我在我的项目中包含了以下依赖项:hadoop-core:1.2.1hadoop-common:2.7.1hadoop-hdfs:2.7.1我的代码如下所示:FilelocalDir=...;FilehdfsDir=...;PathlocalPath=newPath(localDir.getCanonicalPath());PathhdfsPath=newPat

python - 在 HDFS 中查询列的行值

我在hdfs中有一个制表符分隔的文本文件,它是从其他人构建的一些文本分析中输出的,看起来像这样。真实文件有18k列宽,当每月刷新时,列数和列名都不是静态的。ProductID[Ilovepeanuts][Yourmomissilly][Let'seatpizza]P-ABCD001P-1234110我需要编写一个程序来搜索或查询“让我们吃披萨”并返回P-ABCD。我现在正在使用Python,但我对python和mapreduce都是新手,所以我无法思考如何解决这个问题。情况很奇怪,我还没有找到任何其他解决方案。我在想是否可以转动“table”,使其看起来像这样:ProductIDPhr

hadoop - HDFS 可以作为机器的 native 文件系统运行吗?

我正在学习使用ClouderaVM的教程。hadoop堆栈已预安装在VM中。任何时候我必须做操作我必须将文件从VM文件系统传输到HDFS,在我看来,将所有文件从native文件系统(在我的例子中是VMnative文件系统)复制到HDFS有点开销。hdfsdfs-putHDFS是在工业环境中作为本地文件系统运行,还是上述方法是事实上的运行方式。 最佳答案 您不能使用HDFS跳过该过程。在HDFS中存储文件意味着几个步骤,例如如果文件大于block大小,则将文件分成block,在名称节点中生成记录以存储与文件block相关的所有元数据,