草庐IT

scala - 将 S3(法兰克福)与 Spark 结合使用

有人使用hadoop/spark1.6.0在Frankfurt上使用s3吗?我正在尝试将作业的结果存储在s3上,我的依赖项声明如下:"org.apache.spark"%%"spark-core"%"1.6.0"exclude("org.apache.hadoop","hadoop-client"),"org.apache.spark"%%"spark-sql"%"1.6.0","org.apache.hadoop"%"hadoop-client"%"2.7.2","org.apache.hadoop"%"hadoop-aws"%"2.7.2"我设置了以下配置:System.setPr

hadoop - 使用 Amazon S3 运行 Apache Flink

有人成功使用ApacheFlink0.9处理存储在AWSS3上的数据吗?我发现他们使用的是自己的S3FileSystem,而不是Hadoop中的一个……而且它看起来不起作用。我把下面的路径s3://bucket.s3.amazonaws.com/folder它因以下异常而失败:java.io.IOException:CannotestablishconnectiontoAmazonS3:com.amazonaws.services.s3.model.AmazonS3Exception:Therequestsignaturewecalculateddoesnotmatchthesigna

hadoop - 使用 Hive、S3、EMR 和恢复分区加载数据

已解决:有关此问题的“解决方案”,请参阅下面的更新#2。~~~~~~~在s3中,我有一些log*.gz文件存储在嵌套目录结构中,例如:s3://($BUCKET)/y=2012/m=11/d=09/H=10/我正在尝试将这些加载到ElasticMapReduce(EMR)上的Hive,使用多级分区规范,例如:createexternaltablelogs(contentstring)partitionedby(ystring,mstring,dstring,hstring)location's3://($BUCKET)';表的创建工作。然后我尝试恢复所有现有分区:altertablel

Hadoop fs查找 block 大小?

在Hadoopfs中如何查找特定文件的block大小?我主要对命令行感兴趣,例如:hadoopfs...hdfs://fs1.data/...但它看起来并不存在。是否有Java解决方案? 最佳答案 其他答案中的fsck命令会列出block并允许您查看block数。但是,要查看实际的block大小(以字节为单位)并且没有多余的东西,请执行以下操作:hadoopfs-stat%o/filename默认block大小为:hdfsgetconf-confKeydfs.blocksize单位详情hadoopfs-stat命令中没有记录bloc

hadoop fs -ls 结果为 "no such file or directory"

我已经为10节点集群安装并配置了Hadoop2.5.2。1作为主节点,其他节点作为从节点。我在执行hadoopfs命令时遇到问题。hadoopfs-ls命令在HDFSURI上运行良好。在没有HDFSURI的情况下使用时,它会给出消息“ls:`.':Nosuchfileordirectory”ubuntu@101-master:~$hadoopfs-ls15/01/3017:03:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadoopibraryforyourplatform...usingbuiltin-javaclasseswher

hadoop - 如何将 AWS 访问 key ID 和 secret 访问 key 指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数从网页传递给mapreduce字数统计程序。出现以下错误:HTTPStatus500-Requestprocessingfailed;nestedexceptionisjava.lang.IllegalArgumentException:AWSAccessKeyIDandSecretAccessKeymustbespecifiedastheusernameorpassword(respectively)ofas3nURL,orbysettingthefs.s3n.awsAccessKeyIdorfs.s3n.awsSecretAccessKeypropert

shell - hadoop fs -put 命令

我已经使用ClouderaCDH存储库在CentOS上构建了单节点Hadoop环境。当我想将本地文件复制到HDFS时,我使用了命令:sudo-uhdfshadoopfs-put/root/MyHadoop/file1.txt/但是,结果让我很郁闷:put:'/root/MyHadoop/file1.txt':Nosuchfileordirectory我确定这个文件确实存在。请帮帮我,谢谢! 最佳答案 作为用户hdfs,您是否有权访问/root/(在您的本地硬盘中)?通常你不会。在尝试将其复制到HDFS之前,您必须将file1.txt

amazon-s3 - 如何将文件从 S3 复制到 Amazon EMR HDFS?

我在EMR上运行hive,并需要将一些文件复制到所有EMR实例。据我所知,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文件复制到HDFS,但是我还没有找到直接从S3复制到HDFS的简单方法。解决这个问题的最佳方法是什么? 最佳答案 最好的方法是使用Hadoop的distcp命令。示例(在其中一个集群节点上):%${HADOOP_HOME}/bin/hadoopdistcps3n://mybucket/myfile/root/myfile这会将名为myfile的文件从名为mybucket的S3存储桶复制到HDFS中的

hadoop - `hadoop dfs` 和 `hadoop fs` 之间的区别

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭11年前。Improvethisquestion我看到了dfs命令,然后去看了文档,但我无法理解。在我看来,fs和dfs的工作方式相似。谁能给出确切的区别?

hadoop - 如何从本地 Hadoop 2.6 安装访问 S3/S3n?

我正在尝试在我的本地计算机上重现AmazonEMR集群。为此,我安装了lateststableversionofHadoopasofnow-2.6.0.现在我想访问一个S3存储桶,就像我在EMR集群中所做的那样。我在core-site.xml中添加了aws凭证:fs.s3.awsAccessKeyIdsomeidfs.s3n.awsAccessKeyIdsomeidfs.s3.awsSecretAccessKeysomekeyfs.s3n.awsSecretAccessKeysomekey注意:由于键上有一些斜杠,我用%2F对它们进行了转义如果我尝试列出存储桶的内容:hadoopfs-