草庐IT

Amazon-S

全部标签

amazon-web-services - 保存时挂起的 Spark Dataframe

我一直在努力找出我的spark作业有什么问题,它无限期地卡在我尝试将其写出到S3或HDFS(约100GParquet格式的数据)的地方。导致挂起的行:spark_df.write.save(MY_PATH,format='parquet',mode='append')我已经在覆盖和追加模式下尝试过此操作,并尝试保存到HDFS和S3,但无论如何作业都会挂起。在Hadoop资源管理器GUI中,它显示spark应用程序的状态为“正在运行”,但看起来似乎Spark实际上没有做任何事情,当我查看SparkUI时,没有作业在运行。让它起作用的一件事是在集群处于挂起状态时增加集群的大小(我在AWS上

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许它与Hadoop相同,但我找不到编写map的格式或示例,并在map示例旁边减少python代码:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/但我找不到reduce代码示例,它和Hadoop一样吗?格式是什么,有什么例子吗? 最佳答案 EMR流与一般的Hadoop流没有什么不同。这是一个pythonreducer的例子http://www.michael-noll.com/tutorials/writing-an-had

amazon-ec2 - Amazon EC2 上的 Hadoop : Job tracker not starting properly

我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷,最后等待hadoopjobtracker、tasktracker等启动,超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是,hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时,我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题? 最佳答案 我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些

amazon-web-services - 将 PIG 与 Hadoop 结合使用,我如何通过正则表达式匹配具有未知组数的部分文本?

我正在使用Amazon的elasticmapreduce。我的日志文件看起来像这样randomtextfoo="1"morerandomtextfoo="2"moretextnotamatch="5"noisefoo="1"blahblahblahfoo="1"blahblahfoo="3"blahblahfoo="4"...我如何编写pig表达式来挑选“foo”表达式中的所有数字?我更喜欢看起来像这样的元组:(1,2)(1)(1,3,4)我试过以下方法:TUPLES=foreachLINESgenerateFLATTEN(EXTRACT(line,'foo="([0-9]+)"'))

xml - 上传 4GB 文件到 Amazon-S3

我正在做一些非常简单的数据挖掘(实际上,只是一个单词收集)作为我本科生项目的研究项目。我将使用AmazonElasticMapReduce。我需要上传4GB的.xml文件。最好的方法是什么?上传小的zip文件并以某种方式将它们解压缩到存储桶中?还是拆分文件、上传然后将所有小文件用于流式MapReduce作业? 最佳答案 您应该将此xml放入序列文件中并对其进行bzip2,或者将其bzip2并在云中解压缩。 关于xml-上传4GB文件到Amazon-S3,我们在StackOverflow上

hadoop - Amazon Emr - 当我们拥有核心节点时,任务节点的需求是什么?

我最近在学习AmazonEMR,据我所知,EMR集群让我们选择3个节点。Master,运行NameNode、JobTracker和Resourcemanager等主要Hadoop守护进程。运行Datanode和Tasktracker守护进程的核心。只运行TaskTracker的任务。我想问你们为什么EMR提供任务节点?hadoop建议我们应该在同一个节点上安装Datanode守护进程和Tasktracker守护进程。亚马逊这样做背后的逻辑是什么?您可以将S3中的数据流式传输到核心节点上的HDFS,在HDFS上进行处理,而不是将数据从HDFS共享到任务节点,这在这种情况下会增加IO开销。

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为weka的第三方库执行一些数据挖掘任务。但我不确定如何在amazonelasticmapreduce服务中包含所需的jar文件。有没有人有处理过这种情况的经验? 最佳答案 一个简单的解决方案是使用映射器和缩减器将依赖项放入jar文件中。如果您使用Maven构建我建议使用MavenAssemblyPlugin用于打包具有所有依赖项的单个jar的插件。 关于amazon-web-services-使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库,我们在St

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先,我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID,假设为j-12NWUOKABCDEF-2-其次,我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群,我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

hadoop - Map Reduce 的 Map 函数可以调用 Amazon Map Reduce 中的(外部)Web 服务吗?

我必须用Java编写一个MapReduce作业,在其中我获得了位置(城市、州、国家/地区),我需要将它们转换为纬度/经度坐标,其详细信息由外部Web服务提供:GoogleGeocodingAPI-我的问题是是否允许从MapReduce作业的Map函数调用HTTP请求,即:公共(public)类GeoLocator{privatestaticStringgenderCheck="female";publicstaticclassMapextendsMapReduceBaseimplementsMapper{//CALLEXTERNALWEBSERVICEHERE}..}