hdfs_clusters

mysql - sqoop从hdfs导出到mysql是否保留分区

我已经创建了一个多节点hadoop集群并在其上安装了hive。另外，我在另一台远程机器上安装了MySQL。我打算将存储在HDFS中的数据导出到关系型数据库MySQL中。我研究了如何使用Sqoop完成此操作。所以我发现我需要在MySQL中创建一个表，该表具有相同顺序的目标列(与Hive中存在的一样)，并具有适当的SQL类型。然后使用sqoopexport命令。我的问题是:如果表在Hive中分区，并且在MySQL中创建表时我相应地对其进行分区，sqoopexport命令会保留分区吗？我的问题类似于sqoopexportmysqlpartition.我想知道分区支持是否已添加到sqoop。这

mysql sqoop section 中创 apache hadoop hive

hadoop - (HDFS) 如何在集群内安全复制大数据？

我必须制作大样本数据(比如1TB)并且有大约20GB的文本文件。所以我尝试只复制50次以使其更大，但每次我尝试hadoopfs-cp命令时，我的一些数据节点都会死掉。我听说在UNIX中，删除大数据时可以使用SHRINK安全地从磁盘中删除数据。hadoop中有类似的东西来复制大数据吗？简而言之，有什么方法可以在hadoop集群内安全地复制大数据？还是我必须修改一些配置文件？最佳答案试试distcp。它在后台运行MR作业以复制数据，使我们能够利用Hadoop提供的并行性。关于hadoo

大数何在 section hadoop hdfs

hadoop - 从 hdfs 读取数据并将其存储到 hbase？

我有表格中的数据:source,destination,connection这个数据保存在hdfs中我想读取这些数据并将其放入hbase表中，如下所示:Column1(source)|Column2(Destination)|Column3(ConnectionType)RowvertexA|vertexB|connection我该怎么做？谢谢最佳答案引用LoadingcsvdataintoHbase.他们使用逗号分隔值，但您可以将其更改为使用空格关于hadoop-从hdfs读取数

并将 hadoop section stackoverflow hbase

serialization - 如何将 Kryo 设置为 Writable 的替代品作为 HDFS/Hadoop 中的序列化框架

如何将Kryo设置为我的序列化框架来代替Writable？子问题:如何设置要序列化/反序列化的对象，就像我们对Writable所做的那样？最佳答案将io.serializations属性设置为逗号分隔的类名列表以注册序列化实现。它的默认值是org.apache.hadoop.io.serializer.WritableSerialization，这意味着只有Writable对象可以开箱即用地序列化或反序列化。引用-http://my.safaribooksonline.com/book/databases/hadoop/9780

替代品 serialization section Writable hadoop hdfs kryo

java - 从 Pig UDF 访问 HDFS

我有一个PigJavaUDF，我在其中尝试访问文件系统以将一组文件读入HashMap。但是，当我在构造函数中或稍后执行的方法主体中调用UDFContext.getUDFContext().getJobConf()时，我得到null作为输出。从EvalFunc中获取作业配置的正确格式是什么？最佳答案您是否偶然使用了@MonitoredUDF？就我而言，我能够通过从类中删除注释来解决问题。关于java-从PigUDF访问HDFS，我们在StackOverflow上找到一个类似的问题：

java HDFS section code stackoverflow hadoop apache-pig user-defined-functions

hadoop - Flume:通过 API 将文件发送到 HDFS

我是ApacheFlume-ng的新手。我想将文件从客户端代理发送到服务器代理，服务器代理最终将文件写入HDFS。我看过http://cuddletech.com/blog/?p=795.这是迄今为止我发现的最好的。但它是通过脚本而不是通过API。我想通过FlumeAPI来完成。请在这方面帮助我。并告诉我步骤，如何开始和组织代码。最佳答案我认为您或许应该更多地解释一下您想要实现的目标。您发布的链接似乎正好满足您的需要。您需要在客户端启动Flume代理来读取文件并使用Avro接收器发送它们。然后您的服务器上需要一个Flume代理，

hadoop Flume section stackoverflow cloud

python - 如何使用python设置hdfs目录配额

所有，我想使用python设置hdfs目录配额。设置配额时，我们应该使用hadoopdfsadmin-setSpaceQuota$QUOTA$DIR我找到了一个叫pyhdfs(https://github.com/vbarter/pyhdfs)的python库，它可以控制许多hdfs操作，但不能控制配额操作。如果我必须使用python创建一个目录:fs=hadoop.HadoopDFS("username","password","ugi",64310)printfs.getDefaultBlockSize()fs.disconnect()那么如何在hdfs中设置一个目录的配额呢？有类

python hdfs section code hadoop

java - Hadoop Flume java客户端将日志传输到hdfs

是否可以使用flumejava客户端将Web服务器日志传输到HDFS？如果是这样，怎么办？？请帮帮我......我见过几个人在写入HDFS时遇到问题最佳答案使用log4jFlumeappender将应用程序事件发送到Flume。然后Flume可以将事件写入HDFS，稍后可以使用Hive或其他一些框架对其进行分析。检查这个article有关代码和配置文件的详细说明。appender文中提到的是Flume的一部分，已经moved至Log4J2.另外，看看Scribe来自Facebook。但是，它已经超过2年没有更新了。看起来它并没有

java Hadoop section noreferrer noopener flume

hadoop - 带有 Hadoop 2.2.0 和 hdfs 接收器类型的 Flume 1.4 有问题

下面提到的是我的flume配置文件...#example.conf:Asingle-nodeFlumeconfiguration#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1#readingfileusingtailcommandandsendingdatatochannela1.sources.r1.type=spooldira1.sources.r1.spoolDir=/data/apache-flume-1.4.0-bin/logsa1.sources.r1.channels=c1#Useac

hadoop section hdfs flume

hadoop - 你是什么意思，HDFS 不支持多个作者？

HDFS中的文件可以由单个写入器写入。不支持多个写入器或修改文件中的任意偏移量。单作者和多作者是什么意思？谁能澄清一下？最佳答案 HDFS实现了单写入器、多读取器模型。这意味着您可以让多个读取器读取HDFS上的文件，但只有一个写入器可以写入该文件。该模型使并发控制要求更易于实现。它还简化了数据一致性并支持对托管在HDFS上的文件进行高吞吐量访问。请记住，HDFS中的编写器仅附加到文件。如果您有多个写入者(并发写入者)，您将如何在不丢失数据、不损坏文件内容并保证数据完整性的情况下实现内容追加？

不支 hadoop section 读取器 HDFS mapreduce

143 144 145146147 148 149