草庐IT

hdfs-audit

全部标签

hadoop - 从 hdfs 到 GreenPlum 的 Sqoop 导出不起作用

我正在尝试将数据从hdfs位置导出到Greenplum用户定义的模式(不是默认模式)。尝试使用SqoopEval来检查连接。sqoopeval--connect"jdbc:postgresql://sample.com:5432/sampledb"--usernamesample_user--passwordxxxx--query"SELECT*FROMsample_db.sample_tableLIMIT3"结果:工作正常尝试使用--schema选项/usr/bin/sqoopexport--connect"jdbc:postgresql://sample.com:5432/samp

hadoop - 如何将 hdfs 文件读入 apache beam?

我无法理解如何使用TextIO阅读它。谁能举例说明一下? 最佳答案 尝试以下操作。它适用于我的情况。String[]args1=newString[]{"--hdfsConfiguration=[{\"fs.defaultFS\":\"hdfs://localhost:9000\"}]"};HadoopFileSystemOptionsoptions=PipelineOptionsFactory.fromArgs(args1).withValidation().as(HadoopFileSystemOptions.class);Pi

hadoop - 使用 Kafka 加载 HDFS 有哪些选项?

在当前技术领域,使用ApacheKafka加载HDFS的选项/解决方案有哪些?我在这里寻找Kafka消费者端的选项。还在寻找每天至少扩展到几TB的东西。我还有一些基本要求:a)HDFS的输出应该是分区的。b)Kafka上的记录可能不严格按时间顺序排列,但输出应该(尽可能)按时间顺序排列。c)在系统中断(网络分区、sw/hw崩溃等)的情况下可靠我浏览了StackOverflow,但许多问答都已过时。因此这个问题。 最佳答案 在ConfluentHDFSConnector之前,有一个名为Camus的产品,您仍然可以在LinkedInGi

hadoop - 将文件从本地 C 驱动器移动到 hdfs 沙箱

我正在尝试将文件从我的本地计算机移动到hdfs沙箱,但出现错误。命令:hadoopfs-copyFromLocal\c:\tmp\filename.xlshdfs://sandbox:8020/zynga/logs/pv_extA错误:copyFromLocal:java.net.URISyntaxException:RelativepathinabsoluteURI:C:tmpfilename.xlsUsage:javaFsShell[-copyFromLocal...]问候 最佳答案 copyFromLocal表示沙盒的本地文件

hadoop - 为什么 HDFS ACL max_entries 设置为 32?

在HadoopHDFS中,当您启用ACL时,我发现最大ACL条目设置为32。我在这里获得了源代码,在org/apache/hadoop/hdfs/server/namenode/AclTransformation.java中:privatestaticfinalintMAX_ENTRIES=32;这样做的依据是什么?有什么考虑?我们可以将32更改为另一个更大的数字吗?我想重新配置它。 最佳答案 ACL在HDFS-4685中实现-在HDFS中实现ACL。据我所知,没有关于32限制的设计决策。但是,由于大多数Hadoop系统都在Linu

python - 使用pydoop将文件复制到hdfs

我正在尝试编写用于将文件复制到hdfs的python脚本。我在ubuntu上工作并安装了hadoop和pydoop。以下代码是我的脚本:importpydoop.hdfsashdfsclassCOPYTOHDFS():local_path='/home/user/test.txt'hdfs_path='/testfile'host='master'port=9000hdfsobj=hdfs.hdfs(host,port,user='cloudera-user',groups=['supergroup'])hdfsobj.copy(local_path,hdfsobj,hdfs_path

hadoop - 数据版本控制(Hadoop、HDFS、Hbase 后端)

我想知道如何在Hadoop/HDFS/Hbase中对数据进行版本控制。它应该是您模型的一部分,因为很可能会发生变化(大数据是长时间收集的)。HDFS(基于文件的后端)的主要示例。sample-log-file.log:timestampx1y1z1...timestampx2y2z2...我现在想知道在哪里添加版本控制信息。我看到2个备选方案:文件格式内的版本日志文件.log:timestampV1x1y1z1...timestampV2w1x2y2z1...文件名中的版本*log-file_V1.log*timestampx1y1z1...*日志文件_V2.log*timestamp

hadoop - 映射任务的输出写入本地文件系统或HDFS?

我读到HadoopMap任务将它们的输出写入本地磁盘。假设如果我只有map任务而没有任何reducer,map输出仍然会写入本地文件系统? 最佳答案 是的,它仍然会将输出写入FileOutputFormat.setOutputPath(JobConf,Path)设置的路径,并且不会进行排序或分区。Moreinfo:更新:正如ChrisWhite所提到的,它将直接写入HDFS而不是本地文件系统。 关于hadoop-映射任务的输出写入本地文件系统或HDFS?,我们在StackOverflow

hadoop - 如果这些 API 仅使用本地文件系统路径,如何在 hadoop 中使用第三方 API 从 hdfs 读取文件?

我有很大的mbox文件,我正在使用像mstor这样的第三方API来使用hadoop解析来自mbox文件的消息。我已经将这些文件上传到hdfs中。但问题在于此API仅使用本地文件系统路径,类似于下图MessageStoreApistore=newMessageStoreApi(“filelocationinloclfilesystem”);我无法在此API中找到将从stream初始化的构造函数。所以我无法读取hdfs流并对其进行初始化。现在我的问题是,我是否应该将文件从hdfs复制到本地文件系统并从本地临时文件夹对其进行初始化?这就是我现在一直在做的事情:目前我的map功能接收mbox文

hadoop hdfs 从 cdh3 迁移到 cdh4

我有两个hadoop集群,我的目标是使用hadoop-cp将所有hdfs文件从cluster1复制到cluster2集群1:Hadoop0.20.2-cdh3u4集群2:Hadoop2.0.0-cdh4.1.1现在,即使只是在cluster2上远程对cluster1运行dfs-ls命令,如下所示:hadoopfs-lshdfs://cluster1-namenode:8020/hbase我遇到异常:ls:因本地异常而失败:java.io.IOException:响应为空。;主机详细信息:本地主机是:“cluster2-namenode/10.21.xxx.xxx”;目标主机是:“clu