草庐IT

amazon-elasticache

全部标签

hadoop - 将 Hadoop 连接到 Amazon AWS 上的 Cassandra - netty 版本冲突?

我有一个在AmazonEMR上运行并输出到HDFS平面文件的Hadoopmapreduce类。一切都很好,但现在我需要输出到同样在AWS上运行的Cassandra数据库。我构建并运行了一个本地客户端并让它运行起来,然后将Cassandra编写代码转移到我的Hadoop项目中。问题似乎是,Amazon为Hadoop1.0.3绘制了/home/hadoop/lib/netty-3.2.4.Final.jar,但是在AWS上运行的Cassandra是1.2。6并使用netty-3.5.9.Final.jar。我能做些什么来防止或规避这种冲突?我可以在AmazonEMR绘制的那个版本旁边绘制我

amazon-web-services - 在 Amazon EMR 中的何处查找 Hive UDF 的控制台输出

我在java中创建了一个可以在Hive查询中调用的UDF,在UDF中我放入了System.out.prinln(msg)希望在控制台中输出一些东西。它在我本地的工作场所按预期工作,但当部署到亚马逊EMR时,stderr日志文件不显示来self的UDF函数的任何输出消息。我在哪里可以找到包含我的消息输出的文件? 最佳答案 如果Hive将查询提交给M/R,那么任何输出都将被捕获到您提交的作业控制台输出中。参见WheredoeshadoopmapreduceframeworksendmySystem.out.print()statemen

hadoop - Amazon EMR Application Master Web UI?

我已经开始使用HadoopYARN(AMI3.3.1)在AmazonEMR上运行PIG作业,但是由于Yarn中不再有作业跟踪器,我似乎无法找到WebUI以便我可以跟踪MapReduce作业的Mappers和Reducers的数量,当我尝试访问资源管理器UI页面中提供的ApplicationMaster链接时,我被告知该页面不存在(下面提供的图片)。有谁知道我如何通过我的网络浏览器访问一个UI,它会根据映射器、reducer的数量和每个完成的百分比等向我显示当前的工作状态?谢谢 最佳答案 从ResourceManager网页单击App

hadoop - 是否有用于 Hadoop/HBase 的 Amazon 社区 AMI?

我想在AmazonEC2中测试Hadoop和HBase,但我不确定它有多复杂。是否有安装了Hadoop和HBase的稳定社区AMI?我在想类似bioconductorAMI的东西谢谢。 最佳答案 我强烈推荐使用Amazon'sElasticMapReduce服务,尤其是在您已经拥有AWS/EC2帐户的情况下。原因是:EMR附带一个“开箱即用”的工作Hadoop/HBase集群——您不需要调整任何东西来让Hadoop/HBase工作。ItJustWorks(TM)。AmazonEC2的网络与您可能习惯的网络有很大不同。据我所知,它有一

hadoop - 为什么 Amazon EMR 上的机器越多,我的 Pig UDF 就不能更快?

我是Hadoop和大数据方面的新手。我们每天都有数百个日志文件。每个文件大约78Mb。因此,我们认为我们可以从Hadoop作业中获益,我们可以编写PigUDF并提交给AmazonEMR。我们做了一个非常简单的PigUDFpublicclassProcessLogextendsEvalFunc{//ExtractIPAddressfromlogfilelinebylineandconvertthattoJSONformat.}它在本地与Pig和hadoop一起工作。因此,我们提交给AmazonEMR,并使用5倍超大实例运行。大约花了40分钟才完成。因此,我们认为如果我们将实例加倍(10倍

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在S3中的文件的理想大小,该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时,S3文件会被并行复制到HDFS。但是,是使用单线程将单个大文件复制到HDFS,还是将该文件作为多个部分并行复制?另外,Gzip压缩是否影响将单个文件分成多个部分复制? 最佳答案 有两个因素需要考虑:压缩文件不能在任务之间拆分。例如,如果您有一个大型压缩输入文件,则只有

amazon-web-services - 保存时挂起的 Spark Dataframe

我一直在努力找出我的spark作业有什么问题,它无限期地卡在我尝试将其写出到S3或HDFS(约100GParquet格式的数据)的地方。导致挂起的行:spark_df.write.save(MY_PATH,format='parquet',mode='append')我已经在覆盖和追加模式下尝试过此操作,并尝试保存到HDFS和S3,但无论如何作业都会挂起。在Hadoop资源管理器GUI中,它显示spark应用程序的状态为“正在运行”,但看起来似乎Spark实际上没有做任何事情,当我查看SparkUI时,没有作业在运行。让它起作用的一件事是在集群处于挂起状态时增加集群的大小(我在AWS上

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许它与Hadoop相同,但我找不到编写map的格式或示例,并在map示例旁边减少python代码:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/但我找不到reduce代码示例,它和Hadoop一样吗?格式是什么,有什么例子吗? 最佳答案 EMR流与一般的Hadoop流没有什么不同。这是一个pythonreducer的例子http://www.michael-noll.com/tutorials/writing-an-had

amazon-ec2 - Amazon EC2 上的 Hadoop : Job tracker not starting properly

我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷,最后等待hadoopjobtracker、tasktracker等启动,超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是,hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时,我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题? 最佳答案 我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些

amazon-web-services - 将 PIG 与 Hadoop 结合使用,我如何通过正则表达式匹配具有未知组数的部分文本?

我正在使用Amazon的elasticmapreduce。我的日志文件看起来像这样randomtextfoo="1"morerandomtextfoo="2"moretextnotamatch="5"noisefoo="1"blahblahblahfoo="1"blahblahfoo="3"blahblahfoo="4"...我如何编写pig表达式来挑选“foo”表达式中的所有数字?我更喜欢看起来像这样的元组:(1,2)(1)(1,3,4)我试过以下方法:TUPLES=foreachLINESgenerateFLATTEN(EXTRACT(line,'foo="([0-9]+)"'))