hdfs_clusters

hadoop - HDFS 节点 OOM 太多文件？

我们有一个包含五个节点的HDFS集群。将新文件写入文件系统时，我们经常会收到“没有足够的副本”错误或以下内容:2016-05-2913:30:03,972[Thread-486536]INFO org.apache.hadoop.hdfs.DFSClient-ExceptionincreateBlockOutputStreamjava.io.IOException:Goterror,statusmessage,ackwithfirstBadLinkas10.100.1.22:50010atorg.apache.hadoop.hdfs.protocol.datatransfer.Dat

hadoop - 如何在 Docker 容器中挂载 HDFS

我在Docker容器中制作了一个应用程序Dockerized。我打算让应用程序能够从我们的HDFS访问文件。Docker镜像将部署在我们通过Marathon-Mesos安装HDFS的同一集群上。以下是要POST到Marathon的json。看来我的应用程序能够在HDFS中读取和写入文件。有人可以评论这个的安全性吗？我的应用程序更改的文件是否也会在HDFS中正确更改？我用Google搜索了一下，没有找到任何类似的方法...{"id":"/ipython-test","cmd":null,"cpus":1,"mem":1024,"disk":0,"instances":1,"contain

何在容器 34 section code hadoop docker hdfs mesos marathon

hadoop - 在 hdfs 中创建 Oozie sharelib。(Root 无法模拟 root)

我正在关注http://hadooptutorial.info/apache-oozie-installation-on-ubuntu-14-04/用于使用hadoop2.7.2安装oozie4.1.0构建成功，我可以通过发出这个命令来创建ooziewarhduser@master:~/oozie/oozie-bin$sudobin/oozie-setup.shprepare-war在/home/hduser/oozie/oozie-bin/oozie-server/webapps/oozie.war添加了“ExtJS库，JAR”的新OozieWAR文件信息:Oozie已准备好启动但是

中创 sharelib apache hadoop oozie hdfs

hadoop - 使用 SAP HANA 和 Hadoop/HDFS 的传感器数据

我想将传感器数据保存在合适的数据库中。我每分钟有100.000次写入，每次写入100个字节。我也想对数据进行分析。我想到了hadoop，因为它有许多不同的框架来分析数据。(例如Apachespark)现在我的问题:Hbase一个nosql数据库将是合适的解决方案，因为它有一个列族数据模型来访问大列。但它运行在HDFS之上。HDFS有64MB大小的数据block。如果我有100字节数据，这对我意味着什么？我也想在hadoop之上运行机器学习。HBASE和SAPHana可以一起使用吗？(SAPHanarunwithhadoop) 最佳答案

传感 hadoop blockquote section HDFS hbase sap

linux - 如何编辑 HDFS 组？

我有一个用于练习的独立集群。我尝试通过以HDFS用户身份登录来将root用户添加到hdfs组。我使用的命令是:hdfsdfs-chown-Rroot:hdfs/现在，我能够以root身份访问hdfsdfs命令。但我不知道如何从HDFS组中删除root。我以hdfs用户身份尝试过此命令:hdfsdfs-chown-Rhdfs:hdfs/和groups以根用户身份执行命令。但是root不会添加到除它的主要组之外的任何其他组。我应该如何将它改回原来的样子？最佳答案通过做hdfsdfs-chown-R:您没有将任何用户添加到任何组。相反

linux HDFS section blockquote hadoop permissions

hadoop - 增量导入没有主键的 Oracle 表到 HDFS

我的Oracle数据库有近300个表，其中200个表没有任何主键，很少有表有复合主键。我的要求是以增量方式将所有表数据导入HDFS。你能告诉我如何使用Sqoop实现这一点吗？如果建议任何其他选项，这将非常有帮助。最佳答案不幸的是，无法识别更新的行(您表示您不跟踪更新时间戳)，这使得使用增量加载来捕获更改实际上是不可能的。一些可能性:添加时间戳满载使用行号来识别新记录，不处理更新的记录关于hadoop-增量导入没有主键的Oracle表到HDFS，我们在StackOverflow上找到

hadoop Oracle section 行号 stackoverflow sqoop

Python 使用Hadoop 3 之HDFS 总结

Hadoop概述 Hadoop是一个由Apache软件基金会开发的分布式基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。 Hadoop实现一个分布式文件系统（HadoopDistributedFileSystem,HDFS）。HDFS具有高容错性的特点，并设计它用来部署在廉价的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。Hadoop框架的核心设计是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce则为海量的数据提供了计算。Hadoop核心三大组

总结使用 xff xff0c xff0 hadoop hdfs 大数据

hadoop - 将目录从远程 HDFS 本地文件系统复制到我的本地机器

我本地的hdfs环境下有一个目录，我想把它复制到我的本地电脑上。我正在使用ssh(使用密码)访问hdfs。我尝试了很多建议的复制命令但没有用。我尝试过的:scp‘username@hn0-sc-had:Downloads/*’~/Downloads如本link所述.我究竟做错了什么？最佳答案 SCP将从远程Linux服务器复制。HDFS不存在于单个服务器上或者是“本地文件系统”，因此SCP不是直接从中复制的正确工具您的选择包括SSH到远程服务器使用hdfsdfs-copyToLocal从HDFS中提取文件从您的计算机上使用SCP获

hadoop HDFS section li code scp

scala - 在 Spark (HDFS) 中写入 CSV 文件时选择哪个选项？

我必须比较CSV文件，然后我必须删除所有重复的行。所以，我的情况就像我有一个文件夹，我必须将每个过滤结果放在该文件夹中，当一些新文件出现时，我必须将文件夹中的现有文件与新文件进行比较，最后，我必须把将结果返回到同一文件夹。eg:/data/ingestion/file1.csva1b1c1a2b2c2a3b3c3/data/ingestion/file2.csva4b4c4a5b5c5a6b6c6newupcomingfile(upcoming_file.csv):a1b1c1a5b5c5a7b7c7现在我的方法是从/data/ingestion/*中存在的所有文件创建一个数据帧。然后

scala Spark ingestion 34 hdfs apache-spark hadoop dataframe

java - 如何以编程方式在 hdfs 中创建/触摸文件？

这个问题在这里已经有了答案:WriteafileinhdfswithJava(4个答案)关闭4个月前。有什么方法可以用Java在hdfs中创建touch文件吗？类似于apachecommons中的FileUtils类。如果我们触摸一个已经存在的文件，它会将最后修改时间更新为当前时间。如果该文件不存在，它会创建一个空白文件，将当前时间作为上次修改时间。

中创何以 section notice code java hadoop hdfs

27 28 293031 32 33