hdfs_clusters

docker - Hadoop用docker运行 "hdfs dfs -put"错误

我有一个hadoop的docker镜像。(在我的例子中是https://github.com/kiwenlau/hadoop-cluster-docker)我是按照这个博客一步步做的。而且我可以成功运行docker和Hadoop。但是，当我尝试将一些文件放入hostmachine以测试Hadoop中的WordCount测试时。当我运行时root@hadoop-master:~#hdfsdfs-put/home/ke/code/input它返回一个错误:put:`/home/ke/code':Nosuchfileordirectory但是这个目录确实存在，因为我可以使用cd/home/k

scala - 无法使用 IntelliJ 在本地连接到 hdfs kerberized 集群

我正在尝试通过笔记本电脑上安装的intelliJ在本地连接到hdfs。我正在尝试连接的集群是使用边缘节点进行Kerberized化的。我为边缘节点生成了一个key表，并在下面的代码中进行了配置。我现在可以登录到边缘节点了。但是当我现在尝试访问名称节点上的hdfs数据时，它会抛出错误。下面是试图连接到hdfs的Scala代码:importorg.apache.spark.sql.SparkSessionimportorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.{FileSystem,Path}importor

kerberized IntelliJ 34 hdfs namenodename scala security apache-spark hadoop kerberos

hadoop - 从 hdfs 到 GreenPlum 的 Sqoop 导出不起作用

我正在尝试将数据从hdfs位置导出到Greenplum用户定义的模式(不是默认模式)。尝试使用SqoopEval来检查连接。sqoopeval--connect"jdbc:postgresql://sample.com:5432/sampledb"--usernamesample_user--passwordxxxx--query"SELECT*FROMsample_db.sample_tableLIMIT3"结果:工作正常尝试使用--schema选项/usr/bin/sqoopexport--connect"jdbc:postgresql://sample.com:5432/samp

GreenPlum hadoop sample code BaseSqoopTool hdfs sqoop

hadoop - 如何将 hdfs 文件读入 apache beam？

我无法理解如何使用TextIO阅读它。谁能举例说明一下？最佳答案尝试以下操作。它适用于我的情况。String[]args1=newString[]{"--hdfsConfiguration=[{\"fs.defaultFS\":\"hdfs://localhost:9000\"}]"};HadoopFileSystemOptionsoptions=PipelineOptionsFactory.fromArgs(args1).withValidation().as(HadoopFileSystemOptions.class);Pi

读入 hadoop section HadoopFileSystemOptions 34 google-cloud-platform hdfs google-cloud-dataflow apache-beam

hadoop - 使用 Kafka 加载 HDFS 有哪些选项？

在当前技术领域，使用ApacheKafka加载HDFS的选项/解决方案有哪些？我在这里寻找Kafka消费者端的选项。还在寻找每天至少扩展到几TB的东西。我还有一些基本要求:a)HDFS的输出应该是分区的。b)Kafka上的记录可能不严格按时间顺序排列，但输出应该(尽可能)按时间顺序排列。c)在系统中断(网络分区、sw/hw崩溃等)的情况下可靠我浏览了StackOverflow，但许多问答都已过时。因此这个问题。最佳答案在ConfluentHDFSConnector之前，有一个名为Camus的产品，您仍然可以在LinkedInGi

hadoop Kafka section 自定 apache-kafka hdfs streaming

hadoop - 将文件从本地 C 驱动器移动到 hdfs 沙箱

我正在尝试将文件从我的本地计算机移动到hdfs沙箱，但出现错误。命令:hadoopfs-copyFromLocal\c:\tmp\filename.xlshdfs://sandbox:8020/zynga/logs/pv_extA错误:copyFromLocal:java.net.URISyntaxException:RelativepathinabsoluteURI:C:tmpfilename.xlsUsage:javaFsShell[-copyFromLocal...]问候最佳答案 copyFromLocal表示沙盒的本地文件

沙箱驱动 section copyFromLocal code hadoop hdfs hortonworks-data-platform

hadoop - 为什么 HDFS ACL max_entries 设置为 32？

在HadoopHDFS中，当您启用ACL时，我发现最大ACL条目设置为32。我在这里获得了源代码，在org/apache/hadoop/hdfs/server/namenode/AclTransformation.java中:privatestaticfinalintMAX_ENTRIES=32;这样做的依据是什么？有什么考虑？我们可以将32更改为另一个更大的数字吗？我想重新配置它。最佳答案 ACL在HDFS-4685中实现-在HDFS中实现ACL。据我所知，没有关于32限制的设计决策。但是，由于大多数Hadoop系统都在Linu

max_entries entries section strong ACL hadoop hdfs

python - 使用pydoop将文件复制到hdfs

我正在尝试编写用于将文件复制到hdfs的python脚本。我在ubuntu上工作并安装了hadoop和pydoop。以下代码是我的脚本:importpydoop.hdfsashdfsclassCOPYTOHDFS():local_path='/home/user/test.txt'hdfs_path='/testfile'host='master'port=9000hdfsobj=hdfs.hdfs(host,port,user='cloudera-user',groups=['supergroup'])hdfsobj.copy(local_path,hdfsobj,hdfs_path

python pydoop hdfs section COPYTOHDFS hadoop

hadoop - 数据版本控制(Hadoop、HDFS、Hbase 后端)

我想知道如何在Hadoop/HDFS/Hbase中对数据进行版本控制。它应该是您模型的一部分，因为很可能会发生变化(大数据是长时间收集的)。HDFS(基于文件的后端)的主要示例。sample-log-file.log:timestampx1y1z1...timestampx2y2z2...我现在想知道在哪里添加版本控制信息。我看到2个备选方案:文件格式内的版本日志文件.log:timestampV1x1y1z1...timestampV2w1x2y2z1...文件名中的版本*log-file_V1.log*timestampx1y1z1...*日志文件_V2.log*timestamp

hadoop section timestamp code mapreduce versioning hbase bigdata

hadoop - 映射任务的输出写入本地文件系统或HDFS？

我读到HadoopMap任务将它们的输出写入本地磁盘。假设如果我只有map任务而没有任何reducer，map输出仍然会写入本地文件系统？最佳答案是的，它仍然会将输出写入FileOutputFormat.setOutputPath(JobConf,Path)设置的路径，并且不会进行排序或分区。Moreinfo:更新:正如ChrisWhite所提到的，它将直接写入HDFS而不是本地文件系统。关于hadoop-映射任务的输出写入本地文件系统或HDFS？，我们在StackOverflow

hadoop HDFS section stackoverflow mapreduce

28 29 303132 33 34