hdfs-audit

hadoop - 从 hdfs 到 GreenPlum 的 Sqoop 导出不起作用

我正在尝试将数据从hdfs位置导出到Greenplum用户定义的模式(不是默认模式)。尝试使用SqoopEval来检查连接。sqoopeval--connect"jdbc:postgresql://sample.com:5432/sampledb"--usernamesample_user--passwordxxxx--query"SELECT*FROMsample_db.sample_tableLIMIT3"结果:工作正常尝试使用--schema选项/usr/bin/sqoopexport--connect"jdbc:postgresql://sample.com:5432/samp

hadoop - 如何将 hdfs 文件读入 apache beam？

我无法理解如何使用TextIO阅读它。谁能举例说明一下？最佳答案尝试以下操作。它适用于我的情况。String[]args1=newString[]{"--hdfsConfiguration=[{\"fs.defaultFS\":\"hdfs://localhost:9000\"}]"};HadoopFileSystemOptionsoptions=PipelineOptionsFactory.fromArgs(args1).withValidation().as(HadoopFileSystemOptions.class);Pi

读入 hadoop section HadoopFileSystemOptions 34 google-cloud-platform hdfs google-cloud-dataflow apache-beam

hadoop - 使用 Kafka 加载 HDFS 有哪些选项？

在当前技术领域，使用ApacheKafka加载HDFS的选项/解决方案有哪些？我在这里寻找Kafka消费者端的选项。还在寻找每天至少扩展到几TB的东西。我还有一些基本要求:a)HDFS的输出应该是分区的。b)Kafka上的记录可能不严格按时间顺序排列，但输出应该(尽可能)按时间顺序排列。c)在系统中断(网络分区、sw/hw崩溃等)的情况下可靠我浏览了StackOverflow，但许多问答都已过时。因此这个问题。最佳答案在ConfluentHDFSConnector之前，有一个名为Camus的产品，您仍然可以在LinkedInGi

hadoop Kafka section 自定 apache-kafka hdfs streaming

hadoop - 将文件从本地 C 驱动器移动到 hdfs 沙箱

我正在尝试将文件从我的本地计算机移动到hdfs沙箱，但出现错误。命令:hadoopfs-copyFromLocal\c:\tmp\filename.xlshdfs://sandbox:8020/zynga/logs/pv_extA错误:copyFromLocal:java.net.URISyntaxException:RelativepathinabsoluteURI:C:tmpfilename.xlsUsage:javaFsShell[-copyFromLocal...]问候最佳答案 copyFromLocal表示沙盒的本地文件

沙箱驱动 section copyFromLocal code hadoop hdfs hortonworks-data-platform

hadoop - 为什么 HDFS ACL max_entries 设置为 32？

在HadoopHDFS中，当您启用ACL时，我发现最大ACL条目设置为32。我在这里获得了源代码，在org/apache/hadoop/hdfs/server/namenode/AclTransformation.java中:privatestaticfinalintMAX_ENTRIES=32;这样做的依据是什么？有什么考虑？我们可以将32更改为另一个更大的数字吗？我想重新配置它。最佳答案 ACL在HDFS-4685中实现-在HDFS中实现ACL。据我所知，没有关于32限制的设计决策。但是，由于大多数Hadoop系统都在Linu

max_entries entries section strong ACL hadoop hdfs

python - 使用pydoop将文件复制到hdfs

我正在尝试编写用于将文件复制到hdfs的python脚本。我在ubuntu上工作并安装了hadoop和pydoop。以下代码是我的脚本:importpydoop.hdfsashdfsclassCOPYTOHDFS():local_path='/home/user/test.txt'hdfs_path='/testfile'host='master'port=9000hdfsobj=hdfs.hdfs(host,port,user='cloudera-user',groups=['supergroup'])hdfsobj.copy(local_path,hdfsobj,hdfs_path

python pydoop hdfs section COPYTOHDFS hadoop

hadoop - 数据版本控制(Hadoop、HDFS、Hbase 后端)

我想知道如何在Hadoop/HDFS/Hbase中对数据进行版本控制。它应该是您模型的一部分，因为很可能会发生变化(大数据是长时间收集的)。HDFS(基于文件的后端)的主要示例。sample-log-file.log:timestampx1y1z1...timestampx2y2z2...我现在想知道在哪里添加版本控制信息。我看到2个备选方案:文件格式内的版本日志文件.log:timestampV1x1y1z1...timestampV2w1x2y2z1...文件名中的版本*log-file_V1.log*timestampx1y1z1...*日志文件_V2.log*timestamp

hadoop section timestamp code mapreduce versioning hbase bigdata

hadoop - 映射任务的输出写入本地文件系统或HDFS？

我读到HadoopMap任务将它们的输出写入本地磁盘。假设如果我只有map任务而没有任何reducer，map输出仍然会写入本地文件系统？最佳答案是的，它仍然会将输出写入FileOutputFormat.setOutputPath(JobConf,Path)设置的路径，并且不会进行排序或分区。Moreinfo:更新:正如ChrisWhite所提到的，它将直接写入HDFS而不是本地文件系统。关于hadoop-映射任务的输出写入本地文件系统或HDFS？，我们在StackOverflow

hadoop HDFS section stackoverflow mapreduce

hadoop - 如果这些 API 仅使用本地文件系统路径，如何在 hadoop 中使用第三方 API 从 hdfs 读取文件？

我有很大的mbox文件，我正在使用像mstor这样的第三方API来使用hadoop解析来自mbox文件的消息。我已经将这些文件上传到hdfs中。但问题在于此API仅使用本地文件系统路径，类似于下图MessageStoreApistore=newMessageStoreApi(“filelocationinloclfilesystem”);我无法在此API中找到将从stream初始化的构造函数。所以我无法读取hdfs流并对其进行初始化。现在我的问题是，我是否应该将文件从hdfs复制到本地文件系统并从本地临时文件夹对其进行初始化？这就是我现在一直在做的事情:目前我的map功能接收mbox文

hadoop 何在 section hdfs

hadoop hdfs 从 cdh3 迁移到 cdh4

我有两个hadoop集群，我的目标是使用hadoop-cp将所有hdfs文件从cluster1复制到cluster2集群1:Hadoop0.20.2-cdh3u4集群2:Hadoop2.0.0-cdh4.1.1现在，即使只是在cluster2上远程对cluster1运行dfs-ls命令，如下所示:hadoopfs-lshdfs://cluster1-namenode:8020/hbase我遇到异常:ls:因本地异常而失败:java.io.IOException:响应为空。；主机详细信息:本地主机是:“cluster2-namenode/10.21.xxx.xxx”；目标主机是:“clu

cdh hadoop strong cluster cluster1 hbase hdfs microsoft-distributed-file-system

25 26 272829 30 31