EMR_草庐IT

hadoop - EMR 上的 Apache Giraph

有人在EMR上尝试过ApacheGiraph吗？在我看来，在EMR上运行的唯一要求是将适当的引导脚本添加到作业流程配置中。然后我应该只需要使用标准的自定义JAR启动步骤来启动GiraphRunner，并为我的Giraph程序提供适当的参数。任何文档/教程，或者如果您可以分享您在EMR上使用Giraph的经验，我们将不胜感激。最佳答案是的，我定期在EMR上运行Giraph作业，但我不使用“作业流程”，我手动登录到主节点并将其用作普通的Hadoop集群(我只是使用hadoopjar提交作业命令)。你是对的，你需要添加引导脚本来运行Z

hadoop - 为什么 Amazon EMR 上的机器越多，我的 Pig UDF 就不能更快？

我是Hadoop和大数据方面的新手。我们每天都有数百个日志文件。每个文件大约78Mb。因此，我们认为我们可以从Hadoop作业中获益，我们可以编写PigUDF并提交给AmazonEMR。我们做了一个非常简单的PigUDFpublicclassProcessLogextendsEvalFunc{//ExtractIPAddressfromlogfilelinebylineandconvertthattoJSONformat.}它在本地与Pig和hadoop一起工作。因此，我们提交给AmazonEMR，并使用5倍超大实例运行。大约花了40分钟才完成。因此，我们认为如果我们将实例加倍(10倍

hadoop Amazon section 大数 amazon-web-services apache-pig

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

我正在尝试确定存储在S3中的文件的理想大小，该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时，S3文件会被并行复制到HDFS。但是，是使用单线程将单个大文件复制到HDFS，还是将该文件作为多个部分并行复制？另外，Gzip压缩是否影响将单个文件分成多个部分复制？最佳答案有两个因素需要考虑:压缩文件不能在任务之间拆分。例如，如果您有一个大型压缩输入文件，则只有

amazon-web-services services strong section 大文 hadoop amazon-s3 emr amazon-emr

hadoop - Spark EMR S3 处理大量文件

我在S3中有大约15000个文件(ORC)，其中每个文件包含几分钟的数据，每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵，我正在创建一个文件，其中包含给定日期的所有S3文件列表(objects_list.txt)并将此文件作为输入到sparkreadAPIvalfile_list=scala.io.Source.fromInputStream(getClass.getResourceAsStream("/objects_list.txt"))valpaths:mutable.Set[String]=mutable.Set

hadoop Spark noreferrer section noopener apache-spark amazon-s3 emr amazon-emr

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

我想在AmazonEMR集群中的每个节点上安装一个Python模块。看起来最明显的方法是通过ssh连接到每个节点并在命令行安装它。我将YARN视为在集群中的每个节点上运行相同JAR文件的一种方式，但YARN的“jar”命令似乎在本地系统上运行。最佳答案您可以使用bootstrap在启动集群时在每个EMR节点上安装第3方软件。如果您使用命令行，您可以传递保存在s3中的shell脚本作为引导操作的一部分。awsemrcreate-cluster--name"Testcluster"--ami-version3.3\--use-def

hadoop shell section bootstrap code hadoop-yarn emr

hadoop - 将数据作为 Parquet 从 SQL Server 加载到 S3 - AWS EMR

我们目前在SQLServer中有我们的数据，我们正在尝试将它们作为Parquet文件移动到我们的s3存储桶中。目的是在AWSEMR(主要是Spark、Hive和Presto)中分析这个s3数据。我们不想将数据存储在HDFS中。这里有哪些选择？据我们所知，似乎我们可以使用spark或sqoop进行此导入。虽然在这种情况下sqoop由于并行性(并行数据库连接)比Spark快，但似乎无法将parquet文件从sqoop写入s3-Sqoop+S3+ParquetresultsinWrongFSerror.解决方法是移动到hdfs，然后移动到s3。但是，这似乎效率不高。如何使用SparkSQL从

Parquet hadoop java SQLOperation section amazon-s3 hive sqoop

hadoop - 亚马逊 EMR 和 Hive : Getting a "java.io.IOException: Not a file" exception when loading subdirectories to an external table

我正在使用AmazonEMR。我在s3中有一些日志数据，都在同一个桶中，但在不同的子目录下喜欢:"s3://bucketname/2014/08/01/abc/file1.bz""s3://bucketname/2014/08/01/abc/file2.bz""s3://bucketname/2014/08/01/xyz/file1.bz""s3://bucketname/2014/08/01/xyz/file3.bz"我正在使用:Sethive.mapred.supports.subdirectories=true;Setmapred.input.dir.recursive=true

subdirectories IOException code bucketname section hadoop amazon-web-services amazon-s3 hive emr

java - 在 AWS EMR 上运行 Java 1.8 时不支持 major.minor 版本 52.0

这个问题在这里已经有了答案:Howtofixjava.lang.UnsupportedClassVersionError:Unsupportedmajor.minorversion(50个答案)关闭6年前。我正在尝试通过AWSEMR运行Java1.8MapReduce作业。我已将编译合规性和JRE版本设置为1.8。但在运行时仍然出现以下错误。因为我使用的是一个stanfordAPI，所以我无法切换到较低的Java版本。有人可以在这里帮助我吗？Exceptioninthread"main"java.lang.UnsupportedClassVersionError:org/neu/mr/

不支 major java section URLClassLoader hadoop amazon-web-services emr

hadoop - 从 AWS 上 EMR 上的 jar 写入 S3 中的文件

有什么方法可以将我的Javajar中的文件写入将写入我的reduce文件的S3文件夹？我试过类似的东西:FileSystemfs=FileSystem.get(conf);FSDataOutputStreamFS=fs.create(newPath("S3folderoutputpath"+"//Result.txt"));PrintWriterwriter=newPrintWriter(FS);writer.write(averageDelay.toString());writer.close();FS.close();这里的Result.txt是我要写入的新文件。

hadoop AWS section writer PrintWriter amazon-web-services amazon-s3 mapreduce elastic-map-reduce

java - EMR 上的 Oozie - 任务永远卡在 PREP 状态

我使用3.0.4AMI(Hadoop2.2.0)在ElasticMapreduce上运行Oozie4.0.1。我已经从源代码构建了Oozie，一切都已安装并且似乎正常工作，直到安排Hive作业为止。也就是说，我可以连接到Web控制台，使用“oozie”命令等提交和终止作业。但是......我发现任务(到目前为止我已经尝试过“Hive”和“Shell”)进入PREP状态(根据OozieWeb控制台)但从未真正开始。我已经尝试了协调器(cron)作业和基本工作流作业，并且在这两种情况下都得到了相同的行为。它到达hive任务节点，或shell任务节点，然后挂起。对于基本的工作流任务，jo

Oozie java gt lt 34 hadoop hive elastic-map-reduce