Amazon-S_草庐IT

amazon-web-services - 保存时挂起的 Spark Dataframe

我一直在努力找出我的spark作业有什么问题，它无限期地卡在我尝试将其写出到S3或HDFS(约100GParquet格式的数据)的地方。导致挂起的行:spark_df.write.save(MY_PATH,format='parquet',mode='append')我已经在覆盖和追加模式下尝试过此操作，并尝试保存到HDFS和S3，但无论如何作业都会挂起。在Hadoop资源管理器GUI中，它显示spark应用程序的状态为“正在运行”，但看起来似乎Spark实际上没有做任何事情，当我查看SparkUI时，没有作业在运行。让它起作用的一件事是在集群处于挂起状态时增加集群的大小(我在AWS上

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许它与Hadoop相同，但我找不到编写map的格式或示例，并在map示例旁边减少python代码:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/但我找不到reduce代码示例，它和Hadoop一样吗？格式是什么，有什么例子吗？最佳答案 EMR流与一般的Hadoop流没有什么不同。这是一个pythonreducer的例子http://www.michael-noll.com/tutorials/writing-an-had

python MapReduce section reduce hadoop amazon-emr elastic-map-reduce

amazon-ec2 - Amazon EC2 上的 Hadoop : Job tracker not starting properly

我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷，最后等待hadoopjobtracker、tasktracker等启动，超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是，hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时，我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题？最佳答案我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些

amazon-ec starting section 跟踪器 Amazon amazon-ec2 amazon-web-services cloud hadoop

amazon-web-services - 将 PIG 与 Hadoop 结合使用，我如何通过正则表达式匹配具有未知组数的部分文本？

我正在使用Amazon的elasticmapreduce。我的日志文件看起来像这样randomtextfoo="1"morerandomtextfoo="2"moretextnotamatch="5"noisefoo="1"blahblahblahfoo="1"blahblahfoo="3"blahblahfoo="4"...我如何编写pig表达式来挑选“foo”表达式中的所有数字？我更喜欢看起来像这样的元组:(1,2)(1)(1,3,4)我试过以下方法:TUPLES=foreachLINESgenerateFLATTEN(EXTRACT(line,'foo="([0-9]+)"'))

amazon-web-services services code section 34 hadoop mapreduce apache-pig

xml - 上传 4GB 文件到 Amazon-S3

我正在做一些非常简单的数据挖掘(实际上，只是一个单词收集)作为我本科生项目的研究项目。我将使用AmazonElasticMapReduce。我需要上传4GB的.xml文件。最好的方法是什么？上传小的zip文件并以某种方式将它们解压缩到存储桶中？还是拆分文件、上传然后将所有小文件用于流式MapReduce作业？最佳答案您应该将此xml放入序列文件中并对其进行bzip2，或者将其bzip2并在云中解压缩。关于xml-上传4GB文件到Amazon-S3，我们在StackOverflow上

Amazon-S Amazon section stackoverflow MapReduce xml amazon-s3 amazon-ec2 hadoop

hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？

我最近在学习AmazonEMR，据我所知，EMR集群让我们选择3个节点。Master，运行NameNode、JobTracker和Resourcemanager等主要Hadoop守护进程。运行Datanode和Tasktracker守护进程的核心。只运行TaskTracker的任务。我想问你们为什么EMR提供任务节点？hadoop建议我们应该在同一个节点上安装Datanode守护进程和Tasktracker守护进程。亚马逊这样做背后的逻辑是什么？您可以将S3中的数据流式传输到核心节点上的HDFS，在HDFS上进行处理，而不是将数据从HDFS共享到任务节点，这在这种情况下会增加IO开销。

求是拥有 strong node section hadoop hadoop2 amazon-emr

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为weka的第三方库执行一些数据挖掘任务。但我不确定如何在amazonelasticmapreduce服务中包含所需的jar文件。有没有人有处理过这种情况的经验？最佳答案一个简单的解决方案是使用映射器和缩减器将依赖项放入jar文件中。如果您使用Maven构建我建议使用MavenAssemblyPlugin用于打包具有所有依赖项的单个jar的插件。关于amazon-web-services-使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库，我们在St

中包含第 section stackoverflow amazon-web-services hadoop mapreduce amazon-emr

hadoop - 为 Amazon EMR 应用程序设置 Reducer 的数量

我正在尝试在AmazonEMR下运行wordcount示例。-1-首先，我使用以下命令创建集群:./elastic-mapreduce--create--name"MyTest"--alive这将创建一个具有单个实例的集群并返回一个jobID，假设为j-12NWUOKABCDEF-2-其次，我使用以下命令启Action业:./elastic-mapreduce--jobflowj-12NWUOKABCDEF--jars3n://mybucket/jar-files/wordcount.jar--main-classabc.WordCount--args3n://mybucket/输入数

Reducer hadoop section mybucket elastic-mapreduce amazon-emr reducers mappers

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群，我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

Spark amazon-web-services apache hadoop org apache-spark amazon-s3

hadoop - Map Reduce 的 Map 函数可以调用 Amazon Map Reduce 中的(外部)Web 服务吗？

我必须用Java编写一个MapReduce作业，在其中我获得了位置(城市、州、国家/地区)，我需要将它们转换为纬度/经度坐标，其详细信息由外部Web服务提供:GoogleGeocodingAPI-我的问题是是否允许从MapReduce作业的Map函数调用HTTP请求，即:公共(public)类GeoLocator{privatestaticStringgenderCheck="female";publicstaticclassMapextendsMapReduceBaseimplementsMapper{//CALLEXTERNALWEBSERVICEHERE}..}

Reduce Map section hadoop amazon-web-services