草庐IT

hdfs-agent

全部标签

eclipse - HDFS Web 界面替代方案

好吧,这很烦人!我是Hadoop的新手。我正试图找到基本HDFSWeb界面的合适替代品。我尝试使用hadoopeclipse插件,但似乎它已经过时了,正确设置它很痛苦!我安装了cloudera的发行版,我听说过clouderadesktop,但它不再可用。谁能告诉我HDFSWeb界面的不错替代方案,我可以通过GUI轻松地将文件下载和上传到HDFS?P.S我正在本地运行所有内容,不,涉及集群。尝试了很多寻找,但似乎没有任何东西指向正确的方向 最佳答案 您可以使用webhdfs,其RESTAPI支持HDFS的完整文件系统接口(inter

hadoop - 如何在 mapper 或 reducer 中运行外部程序,将 HDFS 文件作为输入并将输出文件存储在 HDFS 中?

我有一个将文件作为输入并给出输出文件的外部程序//forexampleinputfile:IN_FILEoutputfile:OUT_FILE//RunExternalprogram./vx${OUT_FILE}我想要HDFS中的输入和输出文件我有8个节点的集群。我有8个输入文件,每个文件有1行//1inputfile:1.txt1:0,0,0//2inputfile:2.txt2:0,0,128//3inputfile:3.txt3:0,128,0//5inputfile:4.txt4:0,128,128//5inputfile:5.txt5:128,0,0//6inputfile:

Hadoop 文件系统读取 linux 文件系统而不是 hdfs?

我发生了一件奇怪的事情,当我阅读hadoop文件系统时,它显示的是linux文件系统而不是hadoop文件系统,有人熟悉这个问题吗?谢谢,米卡 最佳答案 如果找不到有效的hadoop配置,就会发生这种情况。例如如果你这样做:hadoopfs-ls并且在默认位置没有找到任何配置,然后您将看到linux文件系统。您可以通过在“hadoop”命令之后添加-conf选项来对此进行测试,例如hadoop-conf=fs-ls 关于Hadoop文件系统读取linux文件系统而不是hdfs?,我们在S

mysql - sqoop从hdfs导出到mysql是否保留分区

我已经创建了一个多节点hadoop集群并在其上安装了hive。另外,我在另一台远程机器上安装了MySQL。我打算将存储在HDFS中的数据导出到关系型数据库MySQL中。我研究了如何使用Sqoop完成此操作。所以我发现我需要在MySQL中创建一个表,该表具有相同顺序的目标列(与Hive中存在的一样),并具有适当的SQL类型。然后使用sqoopexport命令。我的问题是:如果表在Hive中分区,并且在MySQL中创建表时我相应地对其进行分区,sqoopexport命令会保留分区吗?我的问题类似于sqoopexportmysqlpartition.我想知道分区支持是否已添加到sqoop。这

hadoop - (HDFS) 如何在集群内安全复制大数据?

我必须制作大样本数据(比如1TB)并且有大约20GB的文本文件。所以我尝试只复制50次以使其更大,但每次我尝试hadoopfs-cp命令时,我的一些数据节点都会死掉。我听说在UNIX中,删除大数据时可以使用SHRINK安全地从磁盘中删除数据。hadoop中有类似的东西来复制大数据吗?简而言之,有什么方法可以在hadoop集群内安全地复制大数据?还是我必须修改一些配置文件? 最佳答案 试试distcp。它在后台运行MR作业以复制数据,使我们能够利用Hadoop提供的并行性。 关于hadoo

hadoop - 从 hdfs 读取数据并将其存储到 hbase?

我有表格中的数据:source,destination,connection这个数据保存在hdfs中我想读取这些数据并将其放入hbase表中,如下所示:Column1(source)|Column2(Destination)|Column3(ConnectionType)RowvertexA|vertexB|connection我该怎么做?谢谢 最佳答案 引用LoadingcsvdataintoHbase.他们使用逗号分隔值,但您可以将其更改为使用空格 关于hadoop-从hdfs读取数

serialization - 如何将 Kryo 设置为 Writable 的替代品作为 HDFS/Hadoop 中的序列化框架

如何将Kryo设置为我的序列化框架来代替Writable?子问题:如何设置要序列化/反序列化的对象,就像我们对Writable所做的那样? 最佳答案 将io.serializations属性设置为逗号分隔的类名列表以注册序列化实现。它的默认值是org.apache.hadoop.io.serializer.WritableSerialization,这意味着只有Writable对象可以开箱即用地序列化或反序列化。引用-http://my.safaribooksonline.com/book/databases/hadoop/9780

java - 从 Pig UDF 访问 HDFS

我有一个PigJavaUDF,我在其中尝试访问文件系统以将一组文件读入HashMap。但是,当我在构造函数中或稍后执行的方法主体中调用UDFContext.getUDFContext().getJobConf()时,我得到null作为输出。从EvalFunc中获取作业配置的正确格式是什么? 最佳答案 您是否偶然使用了@MonitoredUDF?就我而言,我能够通过从类中删除注释来解决问题。 关于java-从PigUDF访问HDFS,我们在StackOverflow上找到一个类似的问题:

hadoop - Flume:通过 API 将文件发送到 HDFS

我是ApacheFlume-ng的新手。我想将文件从客户端代理发送到服务器代理,服务器代理最终将文件写入HDFS。我看过http://cuddletech.com/blog/?p=795.这是迄今为止我发现的最好的。但它是通过脚本而不是通过API。我想通过FlumeAPI来完成。请在这方面帮助我。并告诉我步骤,如何开始和组织代码。 最佳答案 我认为您或许应该更多地解释一下您想要实现的目标。您发布的链接似乎正好满足您的需要。您需要在客户端启动Flume代理来读取文件并使用Avro接收器发送它们。然后您的服务器上需要一个Flume代理,

python - 如何使用python设置hdfs目录配额

所有,我想使用python设置hdfs目录配额。设置配额时,我们应该使用hadoopdfsadmin-setSpaceQuota$QUOTA$DIR我找到了一个叫pyhdfs(https://github.com/vbarter/pyhdfs)的python库,它可以控制许多hdfs操作,但不能控制配额操作。如果我必须使用python创建一个目录:fs=hadoop.HadoopDFS("username","password","ugi",64310)printfs.getDefaultBlockSize()fs.disconnect()那么如何在hdfs中设置一个目录的配额呢?有类