草庐IT

hadoop - fs -put(或 copyFromLocal)和数据类型感知

如果我使用hadoopfs-put文件名将大小为117MB的文本文件上传到HDFS,我可以看到一个数据节点包含一个大小为64.98MB(默认文件拆分大小)的文件部分,另一个数据节点包含一个大小为64.98MB的文件部分48.59MB。我的问题是这个拆分位置是否是以数据感知方式计算的(例如以某种方式识别文件是文本并因此在“\n”处拆分文件)。我意识到InputFileFormat可用于告诉正在运行的作业如何以智能方式拆分文件,但由于我没有在fs-put命令中指定文件类型,我想知道是否(以及如何)在这种情况下将进行智能拆分。艾莉 最佳答案

ubuntu - 找不到 hadoop fs 操作文件

我最近在运行ubuntu12.04的机器上安装并配置了hadoop。安装成功,我能够成功启动所有服务。我正面临hadoopfs的问题。我想我已经正确设置了它,因为hadoopfs没有给出任何错误,比如找不到命令。我在使用hadoopfs执行任何操作时遇到错误,例如ls、put、copyFromLocal。尽管提供了有效路径,但每个操作最终都会显示Nosuchfileordirectory错误。请帮我解决这个问题。hdfs输出recmach@chetan-HP-ENVY-15-Notebook-PC:~/hadoop/hadoop-2.6.1/sbin$hadoopfs-ls/home/

java - 如何在 hadoop 配置中正确设置 s3a 配置?

我收到奇怪的错误,例如-无法获取aws凭据或无法从...加载凭据有没有办法在hadoop配置中明确设置s3a凭证? 最佳答案 由于s3a是相对较新的实现(并且从hadoop2.7开始可以正常工作),您需要在hadoop配置中设置两组属性-conf.set("fs.s3a.access.key",access_key);conf.set("fs.s3a.secret.key",secret_key);conf.set("fs.s3a.awsAccessKeyId",access_key);conf.set("fs.s3a.awsSec

python - hadoop fs -ls 仅存储文件的路径

我正在查看Hadoop文件系统。用命令hadoopfs-ls/path/to/dir1*我将查看以dir1开头的每个目录并返回它们的文件输出会是这样的Found1items-rw-r--r--3sys_blah_blahmoredate/path/to/dir10/file1.pyFound1items-rw-r--r--3sys_blah_blahmoredate/path/to/dir10/file2.pyFound1items-rw-r--r--3sys_blah_blahmoredate/path/to/dir10/file3.pyFound1items-rw-r--r--3s

hadoop - 您可以将 s3distcp 与 gzip 压缩输入一起使用吗?

我正在尝试使用s3distcp来编译许多小的gzip文件,不幸的是,这些文件没有以gz扩展名结尾。s3distcp有一个可用于压缩输出的outputCodec参数,但没有相应的inputCodec。我正在尝试将--jobconf与hadoop流调用一起使用,但它似乎没有做任何事情(输出仍然是压缩的)。我使用的命令是hadoopjarlib/emr-s3distcp-1.0.jar-Dstream.recordreader.compression=gzip\--srcs3://inputfolder--desthdfs:///data任何想法可能会发生什么?我正在运行AWSEMRAMI-

hadoop - 从 S3 读取超过 500GB 的数据并将 400GB 输出保存到 S3 是个好主意吗?

我的MR作业从AWSS3读取500GB数据,同时将中间数据保存在S3中,并将reducer的输出(大约400GB)写入S3,这是一个好的设计吗?还有其他更便宜、更稳定的解决方案吗?谢谢! 最佳答案 我们的ETL作业在AWS中运行。我们使用Oozie进行工作流管理。当您在EMR(ElasticMapReduce)中运行时,您可以选择写入s3或本地HDFS。将数据存储在s3或HDFS中的决定取决于多种因素,例如:数据的性质:临时(使用HDFS)或永久(使用s3)成本:存储在s3中会花费您一些美分/美元带宽:当您将数据上传到s3时,您会消

hadoop - 为什么 Hadoop 不尊重 pyspark 中设置的 'spark.hadoop.fs' 属性?

这个问题在这里已经有了答案:Howtosethadoopconfigurationvaluesfrompyspark(3个答案)关闭5年前。我希望能够动态设置我的spark-defaults.conf中的三个属性:spark.driver.maxResultSizespark.hadoop.fs.s3a.access.keyspark.hadoop.fs.s3a.secret.key这是我的尝试:frompysparkimportSparkConffrompyspark.sqlimportSparkSessionconf=(SparkConf().setMaster(spark_mas

hadoop - 如何抑制 hadoop fs 命令的信息消息

当我们运行hadoopfs-get命令时,我们会看到所有信息消息。我怎样才能抑制这些消息。17/12/0517:59:02INFOs3n.S3NativeFileSystem:Opening's3://testbucketzs/Manish/test1/data/csv-serde-1.1.2-0.11.0-all-Copy(796)- 最佳答案 如果您不想全局更改所有Hadoop进程的log4j.properties,您可以为执行一次性命令exportHADOOP_ROOT_LOGGER="WARN,DFRA"然后,在该sessi

hadoop - org.apache.hadoop.fs.ParentNotDirectoryException :/tmp (is not a directory)

我是Hadoop新手,正在运行wordCount2示例。但是我遇到了以下错误Exceptioninthread"main"org.apache.hadoop.fs.ParentNotDirectoryException:/tmp(isnotadirectory)atorg.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkIsDirectory(FSPermissionChecker.java:570)atorg.apache.hadoop.hdfs.server.namenode.FSPermissionCheck

hadoop - 使用 amazon s3 作为输入、输出并将中间结果存储在 EMR map reduce 作业中

我正在尝试将Amazons3存储与EMR结合使用。但是,当我当前运行我的代码时,出现多个错误,例如java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://10.254.37.109:9000)doesnotsupportaccesstotherequestpath's3n://energydata/input/centers_200_10k_norm.csv'YoupossiblycalledFileSystem.get(conf)whenyoushouldhavecalledFileSystem.get(uri,c