amazon-ebs

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

这个问题在这里已经有了答案:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics(2个答案)关闭4年前。我在DC/OS上有一个Spark集群，我正在运行一个从S3读取的Spark作业。版本如下:星火2.3.1Hadoop2.7AWS连接依赖:"org.apache.hadoop"%"hadoop-aws"%"3.0.0-alpha2"我通过执行以下操作读入数据:`valhadoopConf=sparkSession.sparkContext.hadoopConfigurationhadoopConf.

hadoop - Map Reduce 的 Map 函数可以调用 Amazon Map Reduce 中的(外部)Web 服务吗？

我必须用Java编写一个MapReduce作业，在其中我获得了位置(城市、州、国家/地区)，我需要将它们转换为纬度/经度坐标，其详细信息由外部Web服务提供:GoogleGeocodingAPI-我的问题是是否允许从MapReduce作业的Map函数调用HTTP请求，即:公共(public)类GeoLocator{privatestaticStringgenderCheck="female";publicstaticclassMapextendsMapReduceBaseimplementsMapper{//CALLEXTERNALWEBSERVICEHERE}..}

Reduce Map section hadoop amazon-web-services

hadoop - 如何在 Amazon EMR 上配置 Hadoop 参数？

我在AmazonEMR上使用一个主服务器和两个从服务器运行MR作业，但收到很多错误消息，例如runningbeyondphysicalmemorylimits。当前使用情况:已使用3.0GB的3GB物理内存；使用了3.7GB的15GB虚拟内存。在map100%reduce35%后杀死容器我通过在Hadoop2.6.0MR配置中添加以下行来修改我的代码，但我仍然收到相同的错误消息。Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"jobtest2");//conf.set("mapreduce.input.

何在 hadoop code mapreduce section amazon-web-services hadoop2 emr amazon-emr

amazon-web-services - 我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift

我有一个本地Hadoop集群，想将数据加载到AmazonRedshift。考虑到成本，Informatica/Talend不是一个选择，那么我们可以利用Sqoop直接将表从Hive导出到Redshift吗？Sqoop是否连接到Redshift？最佳答案将数据加载到AmazonRedshift中的最有效的方法是将数据放入AmazonS3，然后在Redshift中发出COPY命令。这会在所有Redshift节点上执行并行数据加载。虽然Sqoop可以使用传统的INSERTSQL命令将数据插入Redshift，但这并不是将数据插入Red

amazon-web-services Redshift strong section hadoop etl sqoop

java - 在使用存储在 amazon s3 上的数据运行 Map reduce WordCount 作业时需要帮助

我正在尝试对存储在Amazons3存储桶中的文本文件运行MapreduceWordCount作业。我已经为mapreduce框架设置了与Amazon通信所需的所有必需的身份验证，但我继续运行此错误。知道为什么会这样吗？13/01/2013:22:15ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:rootcause:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:s3://name-bucket/test.txtExc

WordCount amazon JobClient java apache hadoop amazon-s3 mapreduce

hadoop - IllegalArgumentException 必须指定 bucketName 参数。 com.amazonaws.services.s3.AmazonS3Client.rejectNull

使用(hfs-textline)在AWS-EMR集群上运行Clojurejar并获取:IllegalArgumentExceptionThebucketNameparametermustbespecified.com.amazonaws.services.s3.AmazonS3Client.rejectNull`. 最佳答案在我的例子中，它确实是关于bucketname的。我输错了s3:///mkay4242(3个斜线)而不是s3://mkay4242。关于hadoop-Illega

IllegalArgumentException AmazonS3Client section code hadoop clojure emr cascalog

amazon-web-services - AWS EMR 使用 KMS 加密 S3 存储桶

我的EMR出现以下情况，有人可以指导如何进行相同的配置吗？EMR集群跨数据管道执行多项操作:使用KMSKEY1将EMR写入S3BUCKET1使用KMSKEY2将EMR写入S3BUCKET2如何在EMR中配置以上内容？我知道配置EMR的唯一选项位于emrfs-site.xml&/etc/hadoop/conf.empty/core-site.xml这些有标签fs.s3.serverSideEncryption.kms.keyId如何使用上述KMSkey实现我的要求？我需要为不同的存储桶写入在KMSkey之间切换。最佳答案您可以为E

amazon-web-services services code section 34 hadoop amazon-s3 amazon-emr aws-kms

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce

amazon-web-services - 避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我在AWS数据管道中使用EMR事件。此EMR事件正在EMR集群中运行配置单元脚本。它以dynamoDB作为输入并将数据存储在S3中。这是EMR事件中使用的EMR步骤s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hive-script,--run-hive-script,--hive-versions,latest,--args,-f,s3://my-s3-bucket/hive/my_hive_script.q,-d,DYNAMODB_INPUT_TA

中创 amazon-web-services code section hadoop amazon-s3 amazon-emr

amazon-web-services - 如何使用 apache spark 处理数百万个较小的 s3 文件

所以这个问题一直让我抓狂，而且我开始觉得带有s3的spark不是这项特定工作的正确工具。基本上，我在s3存储桶中有数百万个较小的文件。由于我不一定要了解的原因，这些文件无法合并(其中一个是独特的加密副本)。我见过类似的问题，每一个解决方案都没有产生好的结果。我尝试的第一件事是通配符:sc.wholeTextFiles(s3aPath+"/*/*/*/*.txt").count();注意:计数更多的是关于处理文件需要多长时间的调试。这项工作几乎花了一整天的时间，有超过10个实例，但仍然失败，并在列表底部显示错误。然后我找到了这个链接，它基本上说这不是最佳的:https://forums.

amazon-web-services services 34 objectListing tempMeta hadoop apache-spark amazon-s3

139 140 141142143 144 145