草庐IT

HDFS-HAWQ

全部标签

java - 使用Java以编程方式读取存储在HDFS中的文本文件的内容

如何运行这个简单的Java程序来从存储在HDFS目录/字中的文本文件中读取字节?我是否需要为此目的创建一个jar文件?importjava.io.*;importjava.net.MalformedURLException;importjava.net.URL;importorg.apache.hadoop.*;importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;publicclassfilesystemhdfs{publicstaticvoidmain(Stringargs[])throwsMalformedUR

Hadoop:指定 HDFS 的最大大小/容量

我正在运行单节点Hadoop部署。我知道我的应用程序需要多少数据,我可以设置(和重新设置)HDFS使用的最大容量吗?我已经尝试了以下方法,但似乎无法实现。检查hdfs-site.xml和core-site.xml的默认值尝试了以下内容hadoopnamenode-formathdfsdfsadmin-setSpaceQuota2g/hdfsdfsadmin-report#stillshowstheoldcapacity编辑:只想添加现有容量,我的名称节点以安全模式出现。所以我不能做像-format,-rm这样的操作,因为我可以做只读操作。我可以接受丢失所有数据,我只是想缩小现有的HDF

java - 谁能给我一个关于如何有效地将大量小文件从本地合并到 HDFS 中的整个文件的建议

谁能给我一个关于如何有效地将大量小文件从普通文件系统合并到HDFS中的整个文件的建议。 最佳答案 如果你的文件存在于Linux上,你可以试试这个命令cat*.txt>merge.log|catmerge.log|hadoopfs-put-mergedFile.log 关于java-谁能给我一个关于如何有效地将大量小文件从本地合并到HDFS中的整个文件的建议,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

hadoop - 我如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列?

我可以在导入或导出时合并两列或多列吗?假设我在DBMSID、FIRST_NAME、LAST_NAME中有3列,我想将其加载为ID、NAME只有两列。那我该怎么做呢? 最佳答案 试试下面的选项sqoopimport--connect--username--password--query"selectID,CONCAT(FIRST_NAME,LAST_NAME)fromtable"--target-dir因为你没有提到你的数据库和表名,所以我用通用形式写了。 关于hadoop-我如何使用sq

hadoop - HDFS的位置感知

简介根据多个文档1,2,3HDFS的位置感知是关于了解节点的物理位置并在不同机架上复制数据以减少由于例如机架问题引起的机架问题的影响。电源和/或开关问题。问题HDFS如何知道节点和机架的物理位置,并随后决定将数据复制到位于其他机架上的节点? 最佳答案 机架感知是在设置集群时配置的。这可以为每个节点手动完成,也可以通过脚本完成。每个DataNode都有一个网络位置,它是一个简单的字符串,很像文件系统路径。示例:datacenter-1/rack-1/node1datacenter-1/rack-1/node2datacenter-1/

java - Java 程序中方案 : hdfs, 没有文件系统

我在执行此java代码以将表从mysql导入配置单元时遇到问题:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importcom.cloudera.sqoop.Sqoop;importcom.cloudera.sqoop.SqoopOptions;importcom.cloudera.sqoop.SqoopOptions.FileLayout;importcom.cloudera.sqoop.tool.ImportTool;importcom.mysql.jdbc.*;publicclas

scala - 使用 HDFS 的 Scalding 教程 : Data is missing from one or more paths in: List(tutorial/data/hello. txt)

当我尝试使用命令运行Scalding教程(https://github.com/Cascading/scalding-tutorial/)时配置ssh和rsync之后:$scripts/scald.rb--hdfstutorial/Tutorial0.scala我收到以下错误:com.twitter.scalding.InvalidSourceException:[com.twitter.scalding.TextLineWrappedArray(tutorial/data/hello.txt)]Dataismissingfromoneormorepathsin:List(tutori

hadoop - 如何计算文件 hdfs 的行数?

这个问题在这里已经有了答案:Howtocountlinesinafileonhdfscommand?(3个答案)关闭7年前。我正在尝试计算hdfs中文件的行数/HIVE.在某些情况下,我想要HIVE中整个表格的行数。,在某些情况下,我想要HIVE中文件中的行数.我试过一些类似!hadoopfs-count/的东西,但这只会给出FILECOUNT,然后CONTENT_SIZE.来自here如何获取行数?

java - HDFS:使用 Java/Scala API 移动多个文件

我需要使用Java/Scala程序移动HDFS中的多个文件,这些文件对应于给定的正则表达式。例如,我必须将名称为*.xml的所有文件从文件夹a移动到文件夹b。使用shell命令,我可以使用以下命令:bin/hdfsdfs-mva/*.xmlb/我可以使用JavaAPI移动单个文件,使用以下代码(scala语言),使用FileSystem类上的rename方法://Prepareinitialconfigurationvalconf=newConfiguration()conf.set("fs.defaultFS","hdfs://hdfs:9000/user/root")valfs=F

hadoop - 为什么我无法在 hadoop hdfs 的父文件夹结构中创建子文件夹?

我在HDFS的父文件夹结构中创建子文件夹(递归)时遇到问题使用Hadoop2.7.1版示例:hadoopfs-mkdir/test/sample/logfiles如果我在终端中输入上述命令,我将无法创建直到level2(logFiles)的完整文件夹结构。如果使用下面的方法,我可以创建测试/样本hadoopfs-mkdir/test/sample应该进行任何限制文件夹创建结构级别的内部配置。?非常感谢任何帮助。谢谢-Sriram 最佳答案 来自hadoop命令documentation:Usage:hadoopfs-mkdir[-p