hdfs_clusters

java - 使用 Java 将目录内容从本地文件系统移动到 HDFS

我在本地文件系统中有一个源目录(/home/src)，其中包含2个文件file1.txt和file2.txt我想通过代码将它们复制到HDFS中的目标目录(/user/dest)。importorg.apache.hadoop.fs.FileUtil;当我使用FileUtilAPI将内容从本地src移动到hdfsdest时，它正在移动src目录。FileUtil.copy("/home/src",fs,"/user/dest",true,conf);有没有一种方法，我可以使用JavaAPI将目录内容从src移动到dest？最佳答案

hadoop - 从 HDFS 复制的文件不显示在本地计算机中

我使用以下命令将一个文件夹从HDFS复制到我的本地计算机:hdfsdfs-copyToLocalhdfs:///user/myname/output-64-32/~/Documents/fromHDFS但是我在fromHDFS文件夹中看不到任何文件，而且当我尝试再次运行该命令时，它显示“文件存在”。非常感谢任何帮助。谢谢。最佳答案试试这些rm-r~/Documents/fromHDFS/*hdfsdfs-get/user/myname/output-64-32/~/Documents/fromHDFS/

hadoop HDFS section fromHDFS Documents

hadoop - 我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试？

测试人员如何测试数据是否从RDBMS移动到HDFS？请仅从测试角度解释。将数据从RDBMS移动到HDFS和将数据从RDBMS移动到HIVE之间有什么区别？据我所知，HIVE不是数据库，那么为什么要将数据移动到HIVE？最佳答案话题有点大。我会尽量用通俗易懂的方式回答。HowatestertestifthedataismovedfromRDBMStoHDFS?Pleaseexplainonlyfromtestingperspective.这就是我们过去所做的。一旦迁移事件发生。我们编写了一堆测试脚本，其中我们使用大量随机记录轮询R

hadoop SQoop section RDBMS blockquote testing hdfs bigdata

hadoop - 如何使用 Hive 确定 HDFS 中的文件大小

我使用的工作区是使用Hive1.1.0和CDH5.5.4设置的。我做了一个查询，它带来了22个分区结果。保存在此分区目录中的文件始终是唯一的，并且可以从20MB到700MB不等。据我了解，这与查询过程中使用的reducer数量有关。假设我希望每个分区有5个文件而不是1个，我使用这个命令:setmapreduce.job.reduces=5;这将使系统在第1阶段使用5个reduce任务，但会在第2阶段自动切换到1个reducer(在编译时自动确定)。据我所知，这是因为在选择reducer数量时，编译器比配置更重要。好像有些任务不能“并行化”，只能由一个进程或reducer任务完成，所以系

hadoop Hive code reducer following hdfs

java - 如何将仅包含标题(无行)的数据集写入 hdfs 位置(csv 格式)，以便在下载时包含标题？

我有一个仅包含标题(id、姓名、年龄)和0行的数据集。我想使用将它作为csv文件写入hdfs位置DataFrameWriterdataFrameWriter=dataset.write();MapcsvOptions=newHashMap();csvOptions.put("header","true");dataFrameWriter=dataFrameWriter.options(csvOptions);dataFrameWriter.mode(SaveMode.Overwrite).csv(location);在hdfs位置，文件是:1._SUCCESS2.tempFile.cs

无行在下 code section dataFrameWriter java csv hadoop apache-spark apache-spark-dataset

php - 我可以从自定义 Web 应用程序访问 HDFS 文件吗

我有一个要求，我需要设置hadoop来保存文件，而不仅仅是文本文件，它可以是图像视频pdf。并且将有一个Web应用程序，用户可以从中添加文件并在需要时访问文件。可以实现吗？网络应用程序也需要由我开发。谢谢。最佳答案如果您的应用程序是用Java编写的，则可以使用DFS客户端库轻松实现，该库可以以与标准文件系统非常相似的方式在HDFS中读取和写入文件。基本上可以打开输入或输出流并读取您想要的任何数据。如果您打算使用python构建Web应用程序，那么您可以看看webHDFS，它提供了一个基于HTTP的API来从HDFS中放置和获取文

自定 HDFS section stackoverflow php python-3.x hadoop bigdata

Hadoop HDFS : input/output error when creating user folder

我已按照Hadoopthedefinitiveguide,4thedition:AppendixA中的说明进行操作在伪分布式模式下配置Hadoop。一切正常，除了我尝试创建目录时:hadoopfs-mkdir-p/user/$USER命令返回以下消息:mkdir:/user/my_user_name':Input/outputerror。虽然，当我第一次登录到我的根帐户sudo-s然后键入hadoopfs-mkdir-p/user/$USER命令时，目录'user/root'被创建(路径中的所有目录)。我想我遇到了Hadoop权限问题。任何帮助将不胜感激，谢谢。

creating Hadoop section code hdfs

json - 如何在 Hadoop HDFS 上存储数千个 CSV 文件

情况如何？我有上万个CSV文件(每个250kb-270kb)，我想使用Spark(准确地说是Pyspark)进行处理。每个CSV文件代表一个特定事件的过程数据。您可以说一个CSV文件代表一个对象。由于我想将数据存储在HDFS上，因此我必须找到一种连接数据的方法(因为在HDFS上存储大量微小数据效率低下)。一个CSV文件的片段(已简化)。TimeModulev1v2v3v4v5v6v7v800:00:00Start026,226,00025,89925,7000:00:062:M1026,126,20025,825,899000:01:062:M1026,626,60026,826,79

数千何在 strong 34 section json csv hadoop pyspark hdfs

hadoop - 在 Cloudera VM 中将数据从 HDFS 加载到 Hive Table

当使用ClouderaVM时，您如何访问HDFS中的信息？我知道没有到HDFS的直接路径，但我也不知道如何动态访问它。通过HiveCLI创建Hive表后，我尝试从位于HDFS中的文件加载一些数据:loaddatainpath'/test/student.txt'intotablestudent;但是我得到了这个错误:FAILED:SemanticExceptionLine1:17Invalidpath''/test/student.txt'':Nofilesmatchingpathhdfs://quickstart.cloudera:8020/test/student.txt我还尝试将

Cloudera hadoop code HDFS section hive cloudera-cdh cloudera-quickstart-vm

scala - 在 HDFS 上预组合表并在 Spark 中读取零混洗

上下文我有两个表，作为我的spark作业的一部分，我正在加入/联合分组，这在我每次运行作业时都会导致大量洗牌。我想通过一次存储联合分组数据来分摊所有作业的成本，并将已经联合分组的数据用作我的常规Spark运行的一部分以避免混洗。为了尝试实现这一点，我在HDFS中以Parquet格式存储了一些数据。我正在使用Parquet重复字段来实现以下架构(date,[aRecords],[bRecords])其中[aRecords]表示aRecord数组。我还使用通常的write.partitionBy($"date")在HDFS上按日期对数据进行分区。在这种情况下，aRecords和bRecor

scala Spark aRecords bRecords 34 apache-spark hadoop apache-spark-sql

198 199 200201202 203 204