草庐IT

hadoop - Spark EMR S3 处理大量文件

我在S3中有大约15000个文件(ORC),其中每个文件包含几分钟的数据,每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵,我正在创建一个文件,其中包含给定日期的所有S3文件列表(objects_list.txt)并将此文件作为输入到sparkreadAPIvalfile_list=scala.io.Source.fromInputStream(getClass.getResourceAsStream("/objects_list.txt"))valpaths:mutable.Set[String]=mutable.Set

hadoop - 将数据作为 Parquet 从 SQL Server 加载到 S3 - AWS EMR

我们目前在SQLServer中有我们的数据,我们正在尝试将它们作为Parquet文件移动到我们的s3存储桶中。目的是在AWSEMR(主要是Spark、Hive和Presto)中分析这个s3数据。我们不想将数据存储在HDFS中。这里有哪些选择?据我们所知,似乎我们可以使用spark或sqoop进行此导入。虽然在这种情况下sqoop由于并行性(并行数据库连接)比Spark快,但似乎无法将parquet文件从sqoop写入s3-Sqoop+S3+ParquetresultsinWrongFSerror.解决方法是移动到hdfs,然后移动到s3。但是,这似乎效率不高。如何使用SparkSQL从

r - 流媒体命令失败!使用 Elastic Map Reduce/S3 和 R 时出错

我在这里遵循这个示例,希望能够使用EC2/S3/EMR/R成功运行某些东西。https://gist.github.com/406824作业在StreamingStep上失败。以下是错误日志:Controller:2011-07-21T19:14:27.711ZINFOFetchingjarfile.2011-07-21T19:14:30.380ZINFOWorkingdir/mnt/var/lib/hadoop/steps/12011-07-21T19:14:30.380ZINFOExecuting/usr/lib/jvm/java-6-sun/bin/java-cp/home/ha

hadoop fs -lsr hdfs ://localhost:9000 not working

我刚开始学习hdfs,并且在centosbox上设置了单节点hadoop(版本2.2.0)。在start-all命令之后,我正在尝试运行一些hdfs命令,但下面提到的命令不起作用。bin/hadoopfs-lsrhdfs://localhost:9000/tmp/hadoop-root/dfs/name当这个命令起作用时bin/hadoopfs-lsrfile:///tmp/hadoop-root/dfs/name这是我的core-site.xml文件fs.default.namehdfs://localhost:9000mapred-site.xml文件mapred.job.trac

java - org.apache.hadoop.security.AccessControlException : Permission denied when trying to access S3 bucket through s3n URI using Hadoop Java APIs on EC2

场景我创建了一个名为“my-role”的AWSIAM角色,将EC2指定为可信实体,即使用信任关系策略文档:{"Version":"2012-10-17","Statement":[{"Sid":"","Effect":"Allow","Principal":{"Service":"ec2.amazonaws.com"},"Action":"sts:AssumeRole"}]}该角色具有以下策略:{"Version":"2012-10-17","Statement":[{"Effect":"Allow","Action":["s3:AbortMultipartUpload","s3:De

hadoop - 使用 S3AFileSystem 的 Flink 不会从 S3 读取子文件夹

我们正在使用具有建议的S3AFileSystem配置的Flink1.2.0。当源是S3存储桶中的单个文件夹时,简单的流式处理作业会按预期工作。作业运行时没有错误——但不产生输出——当它的源是一个本身包含子文件夹的文件夹时。为清楚起见,下面是S3存储桶的模型。运行指向s3a://bucket/folder/2017/04/25/01/的作业会正确读取所有三个对象以及存储桶中出现的任何后续对象。将作业指向s3a://bucket/folder/2017/(或任何其他中间文件夹)会导致作业在不产生任何内容的情况下运行。在绝望中,我们尝试了[in|ex]包含尾随/的排列。.`--folder`

linux - 看不到 hdfs,Hadoop shell 命令 hadoop fs -ls 给出错误无法访问

我遇到了一个奇怪的问题,我无法在我的hdfs中看到文件。每当我执行hadoopfs-ls时,我都会收到以下错误:hadoopfs-lsWarning:$HADOOP_HOMEisdeprecated.ls:Cannotaccess.:Nosuchfileordirectory.我可以使用诸如copyfromlocal等命令,但仍然无法在hdfs中看到它们,由于这个问题也无法运行pig脚本。如果我执行hadoopfs-ls/*我得到以下错误:hadoopfs-ls/*Warning:$HADOOP_HOMEisdeprecated.Found1itemsdrwxr-xr-x-hduser

java - 使用 distcp 或 s3distcp 将文件从 S3 复制到 HDFS

我正在尝试使用以下命令将文件从S3复制到HDFS:hadoopdistcps3n://bucketname/filenamehdfs://namenodeip/directory但是这不起作用,出现如下错误:ERRORtools.DistCp:Exceptionencounteredjava.lang.IllegalArgumentException:InvalidhostnameinURI我尝试在hadoopconf.xml中添加S3key,但它也不起作用。请帮助我逐步完成从S3到HDFS的文件复制。提前致谢。 最佳答案 命令应该

file - hadoop fs -text vs hadoop fs -cat vs hadoop fs -get

我相信以下所有命令都可用于将hdfs文件复制到本地文件系统。有什么区别/情境利弊。(这里是Hadoop新手)。hadoopfs-text/hdfs_dir/*>>/local_dir/localfile.txthadoopfs-cat/hdfs_dir/*>>/local_dir/localfile.txthadoopfs-get/hdfs_dir/*>>/local_dir/我的经验法则是避免对大文件使用“text”和“cat”。(我用它来复制我的MR作业的输出,这在我的用例中通常较小)。 最佳答案 -cat和-text之间的主要

hadoop fs –put 未知命令

使用以下命令创建了一个文件夹[LOAN_DATA]hadoopfs-mkdirhdfs://masterNode:8020/tmp/hadoop-hadoop/dfs/LOAN_DATA现在使用WebUI,当我列出目录/tmp/hadoop-hadoop/dfs的内容时,它显示LOAN_DATA。但是当我想使用put或copyFromLocal将一些数据从TXT文件存储到LOAN_DATA目录时,我得到了put:未知命令使用的命令:hadoopfs–put'/home/hadoop/my_work/Acquisition_2012Q1.txt'hdfs://masterNode:802