草庐IT

hdfs_sink

全部标签

hadoop - 通过 http 访问存储在 HDFS 中的视频

我想访问存储在HDFS中的视频并在网络浏览器中显示它们。我在github上找到了这个项目(https://github.com/yeleaveszi/Play-Videos-In-HDFS),它确实做到了这一点,但无法让它工作。任何人都可以提供一些信息或方法,让我可以在网络浏览器上显示存储在HDFS中的视频。也有可能获得存储在HDFS中的视频的HTTP链接,我阅读了有关WebHDFS和HTTPFS的内容,但不太了解。如有任何帮助,我们将不胜感激。提前致谢! 最佳答案 使用WebHDFS,您可以获得存储在HDFS中的数据的HTTP链接

java - 具有混合输出端点的 Mapreduce 作业 : S3 and HDFS

我有一个在EMR中运行的MR作业,它当前将输出存储在S3中。reducer的输出将是同一映射器(想想身份映射器)的输入,我想尽可能快地执行连续运行,而不是等待EMR写入S3,然后在“x”分钟后安排映射器读取数据。写入和读取S3需要很长时间(~3--5分钟),所以我想知道是否有办法避免在连续运行时从S3读取?我还需要将mapreduce作业的输出写入S3,因为该数据对我很重要并且需要保留。但是,对于每次连续的MR运行,我不想从S3读取,而是可以将其写入HDFS(或缓存),然后将其用作下一次运行的输入吗?MultipleOutputs-有助于将数据输出到文件夹中的多个文件或写入多个文件夹。

Hadoop HDFS 名称节点失败

在我的主节点中重新启动Namenode角色时,我遇到了一个严重的问题。5月27日下午4:50:09.866错误org.apache.hadoop.hdfs.server.namenode.NameNode收到信号15:SIGTERM5月27日下午4:50:10.182信息org.apache.hadoop.hdfs.server.namenode.NameNodeSHUTDOWN_MSG:可以看出,进程正在接收SIGTERM并且Namenode正在关闭。有人知道发生了什么事吗?我应该查看哪些日志以调试导致SIGTERM的问题?我正在使用ClouderaManager。(Cloudera

hadoop - HDFS 节点 OOM 太多文件?

我们有一个包含五个节点的HDFS集群。将新文件写入文件系统时,我们经常会收到“没有足够的副本”错误或以下内容:2016-05-2913:30:03,972[Thread-486536]INFO  org.apache.hadoop.hdfs.DFSClient-ExceptionincreateBlockOutputStreamjava.io.IOException:Goterror,statusmessage,ackwithfirstBadLinkas10.100.1.22:50010atorg.apache.hadoop.hdfs.protocol.datatransfer.Dat

hadoop - 如何在 Docker 容器中挂载 HDFS

我在Docker容器中制作了一个应用程序Dockerized。我打算让应用程序能够从我们的HDFS访问文件。Docker镜像将部署在我们通过Marathon-Mesos安装HDFS的同一集群上。以下是要POST到Marathon的json。看来我的应用程序能够在HDFS中读取和写入文件。有人可以评论这个的安全性吗?我的应用程序更改的文件是否也会在HDFS中正确更改?我用Google搜索了一下,没有找到任何类似的方法...{"id":"/ipython-test","cmd":null,"cpus":1,"mem":1024,"disk":0,"instances":1,"contain

hadoop - 在 hdfs 中创建 Oozie sharelib。(Root 无法模拟 root)

我正在关注http://hadooptutorial.info/apache-oozie-installation-on-ubuntu-14-04/用于使用hadoop2.7.2安装oozie4.1.0构建成功,我可以通过发出这个命令来创建ooziewarhduser@master:~/oozie/oozie-bin$sudobin/oozie-setup.shprepare-war在/home/hduser/oozie/oozie-bin/oozie-server/webapps/oozie.war添加了“ExtJS库,JAR”的新OozieWAR文件信息:Oozie已准备好启动但是

hadoop - 使用 SAP HANA 和 Hadoop/HDFS 的传感器数据

我想将传感器数据保存在合适的数据库中。我每分钟有100.000次写入,每次写入100个字节。我也想对数据进行分析。我想到了hadoop,因为它有许多不同的框架来分析数据。(例如Apachespark)现在我的问题:Hbase一个nosql数据库将是合适的解决方案,因为它有一个列族数据模型来访问大列。但它运行在HDFS之上。HDFS有64MB大小的数据block。如果我有100字节数据,这对我意味着什么?我也想在hadoop之上运行机器学习。HBASE和SAPHana可以一起使用吗?(SAPHanarunwithhadoop) 最佳答案

linux - 如何编辑 HDFS 组?

我有一个用于练习的独立集群。我尝试通过以HDFS用户身份登录来将root用户添加到hdfs组。我使用的命令是:hdfsdfs-chown-Rroot:hdfs/现在,我能够以root身份访问hdfsdfs命令。但我不知道如何从HDFS组中删除root。我以hdfs用户身份尝试过此命令:hdfsdfs-chown-Rhdfs:hdfs/和groups以根用户身份执行命令。但是root不会添加到除它的主要组之外的任何其他组。我应该如何将它改回原来的样子? 最佳答案 通过做hdfsdfs-chown-R:您没有将任何用户添加到任何组。相反

hadoop - 增量导入没有主键的 Oracle 表到 HDFS

我的Oracle数据库有近300个表,其中200个表没有任何主键,很少有表有复合主键。我的要求是以增量方式将所有表数据导入HDFS。你能告诉我如何使用Sqoop实现这一点吗?如果建议任何其他选项,这将非常有帮助。 最佳答案 不幸的是,无法识别更新的行(您表示您不跟踪更新时间戳),这使得使用增量加载来捕获更改实际上是不可能的。一些可能性:添加时间戳满载使用行号来识别新记录,不处理更新的记录 关于hadoop-增量导入没有主键的Oracle表到HDFS,我们在StackOverflow上找到

Python 使用Hadoop 3 之HDFS 总结

Hadoop概述        Hadoop是一个由Apache软件基金会开发的分布式基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。        Hadoop实现一个分布式文件系统(HadoopDistributedFileSystem,HDFS)。HDFS具有高容错性的特点,并设计它用来部署在廉价的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop框架的核心设计是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce则为海量的数据提供了计算。Hadoop核心三大组