hdfs

hadoop - 如何在 Windows 机器上配置 HDFS CLI？

有一个CLI工具可以直接在HDFS文件系统上使用。这是GitHubLink我使用的是Windows机器，我使用Putty终端连接集群中的HDFS。我遇到了上面的github链接，我希望HDFSCLI工具与putty集成。我确实浏览了链接，作者要求配置几个环境变量以使该工具正常工作。我对配置它们很困惑。我已经将二进制文件下载到我的Windows机器上。我应该配置Windows环境变量吗？如果我这样做，当我用来从Putty连接集群时，此更改将如何影响Putty终端。你们中的任何人都可以调查一下并详细回答以集成该工具吗？感谢您的帮助。最佳答案

何在 Windows section Putty hadoop hdfs command-line-interface bigdata

mysql - 从 HDFS 读取到 Spark

我正在尝试将文件从HDFS读取到Spark中并对其执行一些数据处理。最初，我使用Sqoop将文件从MySQL数据库传输到Spark。SQL数据库表具有三列-movieid、title和genres。我想知道我应该如何格式化sc.textFile以正确提取文件。运行hdfsdfs-ls，我看到:drwxr-xr-x-hduser1supergroup02017-03-2023:51movies运行hdfsdfs-ls电影，我看到:-rw-r--r--1hduser1supergroup02017-03-2023:51movies/_SUCCESS-rw-r--r--1hduser1sup

mysql Spark section code pre hadoop apache-spark sqoop

shell - 在 HDFS 中查找文件的行数以与 QC 文件中的行数进行比较

我在HDFS中加载了一个数据文件和一个qc文件，我想比较QC文件中存在的计数和数据文件行计数。为此，我编写了一个shell脚本，它提取QC文件的计数部分并对数据文件执行wc-l。对于质量检查文件:qccount=$(webhdfs-cathdfs://${CLUSTER_NAME}$hdfs_src_path/$directory/$qc_file_name|cut-d"|"-f2)echo"QC文件计数:$qccount";这会将计数打印为256341对于数据文件:file_count=$(webhdfs-cathdfs://${CLUSTER_NAME}$hdfs_src_path

shell HDFS code section hadoop webhdfs

hadoop - HDFS 中使用的术语是否清晰？

我在熟悉HDFS的过程中遇到了几个术语。很少有术语像:namespace、metadata、transactionlogs、fsimage、editlogs.有时似乎所有这些术语描述的是同一件事，即“有一些信息”，但我对此不太清楚。一般来说，metadata是指关于数据的数据，那么metadata是指所有这些术语，还是所有这些术语在HadoopHDFS上下文中都有不同的用途？最佳答案命名空间:在hadoop中，“命名空间”是指文件名及其路径由名称节点维护。元数据:它包括文件名、大小、权限等...此元数据存储在名为fsimage的

hadoop HDFS strong code section metadata hadoop2 namenode

从/tmp 中删除文件后 Hadoop HDFS 不工作(即使在重新格式化之后)

我错误地执行了sudorm-rf/tmp/*并且我的HadoopHDFS似乎已损坏，我尝试重新格式化我的HDFS并重新启动所有守护进程，但不幸的是我仍然无法让它工作，我能够在HDFS中创建文件夹，但我无法使用-copyFromLocal将任何文件复制到其中。我的Hadoop版本:Hadoop2.5.0-cdh5.3.5它提示我没有运行数据节点:copyFromLocal:File/user/vagrant/data/wikipedia/simple/part-00025.xml.bz2._COPYING_couldonlybereplicatedto0nodesinsteadofmin

即使 Hadoop hdfs apache hadoop2

apache-spark - 一旦写入最终完成，如何处理 HDFS 目录中的新文件？

在我的场景中，我将CSV文件连续上传到HDFS。一旦上传了新文件，我想用SparkSQL处理新文件(例如，计算文件中字段的最大值，将文件转换为parquet)。即我在每个输入文件和转换/处理的输出文件之间有一个一对一的映射。我正在评估SparkStreaming以监听HDFS目录，然后使用Spark处理“流文件”。但是，为了处理整个文件，我需要知道“文件流”何时完成。我想将转换应用于整个文件，以保留文件之间端到端的一对一映射。我怎样才能转换整个文件而不是它的微批处理？据我所知，SparkStreaming只能将转换应用于批处理(DStreams映射到RDD)，而不能一次应用于整个文件(

apache-spark 何处 Spark blockquote Streaming hadoop hdfs spark-structured-streaming

hadoop - HDFS 上的 lsof 命令

我想知道某个文件当前是否正在HDFS上使用或打开。我正在尝试使用以下命令，但它不起作用。有人可以给我正确的命令来执行此操作吗？hadoopfs-lsof/apps/hive/warehouse/db/table/.hive-staging_* 最佳答案没有这样的命令(参见listofavailablecommands)，但您可以使用hdfsfsck检查HDFS中的不一致性。与选项-openforwrite一起列出卡在OPENFORWRITE状态的文件hdfsfsck-files-blocks-locations-openforwr

hadoop HDFS section code hive

hadoop - 如何将大型 xml 文件解压缩到一个 HDFS 目录中

我需要从HDFS目录加载Zip文件，将其解压缩并在包含所有解压缩文件的单个目录中写回HDFS。这些文件是XML，大小以GB为单位。首先，我通过编写自定义InputFormat和自定义RecordReader来实现Map-Reduce程序来解压缩文件并将这些内容提供给映射器，此后每个映射器处理并使用MultiOutput格式写入HDFS。在YARN上运行的mapreduce作业。当输入大小为MB时，这种方法工作正常并且能够在HDFS中获取解压缩格式的文件，但当输入大小为GB时，作业无法写入并以以下错误结束。17/06/1603:49:44INFO mapreduce.Job: map9

大型 hadoop 射器 section memory apache-spark mapreduce hdfs hadoop-yarn

hadoop - HDFS 和小文件 - 第 2 部分

这是引用问题:SmallfilesandHDFSblocks答案引用了Hadoop:权威指南:Unlikeafilesystemforasingledisk,afileinHDFSthatissmallerthanasingleblockdoesnotoccupyafullblock’sworthofunderlyingstorage.我完全同意这一点，因为根据我的理解，block只是名称节点映射整个集群中哪个文件所在位置的一种方式。由于HDFS是我们常规文件系统的抽象，如果block大小为128MB，140MB不可能占用HDFS上的256MB空间，或者换句话说，block中的剩余空间

hadoop HDFS block section

从本地桌面使用 sparklyr 读取存储在 hdfs 上的 csv 文件

我们正在尝试使用sparklyr中可用的spark_read_csv函数加载存储在HDFS中的csv文件。R代码在windows桌面上运行，并配置为以yarn-client模式连接到远程yarn集群，提交和执行作业。使用的spark版本是1.6.0。我们已将com.databricks_spark-csv_2.10-1.0.3.jar和org.apache.commons_commons-csv-1.1.jar包含到spark类路径中，因为spark1.6.0不支持CSV。问题:当我们调用spark_read_csv(sc=sc,path="/user/xyz/adv.csv",nam

sparklyr hdfs DistributedFileSystem section r hadoop

212 213 214215216 217 218