草庐IT

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表),但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

hadoop - Flink - AWS EMR 中的 AWSS3IOException 由带有 S3A 的 BucketingSink 引起

我有一个在AWSEMR中运行的具有高并行度(400)的Flink应用程序。它使用BucketingSink(使用RocksDb后端进行检查点)获取Kafka并汇入S3。目的地使用“s3a://”前缀定义。Flink作业是一个连续运行的流式应用程序。在任何给定时间,所有工作人员加起来可能会生成/写入400个文件(由于400并行度)。几天后,其中一名worker将失败,但出现异常:org.apache.hadoop.fs.s3a.AWSS3IOException:copyFile(bucket/2018-09-01/05/_file-10-1.gz.in-progress,bucket/2

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7,hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分;即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

hadoop - 如何将数据目录从 hdfs 复制到本地 fs?

我从需要备份整个hadoopdatanode数据目录开始,使用:hdfsdfs-copyToLocal/var/hadoop/dfs/name/data/home/ubuntu/hadoopfiles我得到一个错误:"Nosuchfileoprdirectory"for/var/hadoop/dfs/name/data经过一番搜索后,我找到了这个带有示例的StackOverflow主题:https://stackoverflow.com/questions/28213116/hadoop-copy-a-local-file-system-folder-to-hdfs#=但即使我这样做了

scala - 使用临时凭证从 AWS 外部通过 spark 从 s3 读取

我正在尝试通过IntelliJ从我的笔记本电脑读取s3中的文件,这样我就可以更轻松地开发我的spark作业。textFileRDD代码在EMR集群内的Zeppelin中工作,但当我在本地尝试时却不行。在Zeppelin中,我不需要设置任何spark上下文,大概是因为Zeppelin实例在AWS环境中,它为我做了这件事。我编写了代码来创建临时AWS凭证(使用我的IAM用户key),以便我可以向spark上下文提供sessiontoken。访问key和secretkey也来自临时凭证。valsqlContext=sparkSession.sqlContextsqlContext.spark

java - 无法从 HDFS 复制到 S3A

我有一个类使用ApacheFileUtil将目录内容从一个位置复制到另一个位置:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FileUtil;importorg.apache.hadoop.fs.LocatedFileStatus;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.

hadoop fs -text 返回 InvocationTargetException

我正在尝试使用hadoopfs-text读取文件。该文件是在我自己的类中定义的序列文件-为此我使用参数-libjars。通常情况下。这次我得到了没有堆栈跟踪的InvocationTargetException:#hadoopfs-libjarsmyjar.jar-text/tmp/part-r-0000012/09/2117:24:18WARNsnappy.LoadSnappy:Snappynativelibraryisavailable12/09/2117:24:18INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary12/0

hadoop - 从 s3 到 hadoop 的 distcp - 找不到文件

我收到以下关于找不到文件的错误。嗯...文件存在。我是distcp的新手。我正在使用cloudera仅供引用。https://s3.amazonaws.com/test-development/test/201305031003_0_ubuntu.gzubuntu@ubuntu:~$hadoopdistcp-i201305031003_0_ubuntu.gzs3://id:key@test-development/test/201305031003_0_ubuntu.gz13/05/0414:54:29INFOtools.DistCp:srcPaths=[201305031003_0_

hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce

我们的日志文件存储在S3上的年/月/日/小时桶中。结构见下。我如何将第20天的所有日志作为我的mapreduce程序的输入传递?例如:bucket=logs/year=2014/month=8/day=20/hour=1/log1_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_2.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_3.txtbucket=logs/y

ubuntu - hadoop fs -ls 不起作用

我在本地计算机上安装了一个单节点Hadoop,操作系统是Ubuntu14.04。现在我要使用HDFS,当我输入一个简单的命令时hdu@hadoop:~$hadoopfs-ls它显示了以下错误:15/07/1018:24:52WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:CallFromhadoop/127.0.1.1tolocalhost:9000failedonconnectionexceptio