草庐IT

apache-spark - 我应该使用哪个版本的 hadoop-aws

我在EMR5.14(hadoop2.8.3)上的Yarn上运行spark作业。我可以使用更高版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议(protocol)的最新优化吗? 最佳答案 无论EMR为您提供什么,您都需要坚持使用。他们的s3://连接器是AWS开发的,可能是您最安全的选择。FWIW,自2.8.3以来的s3a用于输入性能。与后来的版本没有太大变化,除了在3.1中,如果您将fs.s3a.experimental.fadvise保留为normal,它会自动从优化顺序IO切换到随机IO(列数据)在第一个向后查

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后,当我尝试使用AWSCrawler读取athena中的数据时,我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗? 最佳答案 谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

hadoop - 当我使用 aws 凭证时出现 Distcp 重试错误

我正在尝试将一些日志文件从hdfs推送到s3存储桶我正在为此使用distcp命令,但它一直在尝试很长时间,请帮助我解决问题。sudo-uhdfshadoopdistcp-Dfs.s3a.access.key="xxxxxxxxxx"-Dfs.s3a.secret.key="xxxxxxxxxxxxxx"hdfs://prod1/data/exchange/inventory_snapshot/20160610s3a://test-inventory-snapshot/test/18/11/2715:01:41INFOtools.DistCp:InputOptions:DistCpOpt

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序,我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-ec2 - 如何使用 Apache Whirr 在 AWS 上建立单节点 Hadoop 实例?

我正在尝试使用ApacheWhirr在AmazonWebServices上运行Hadoop的单节点实例。我将whirr.instance-templates设置为1jt+nn+dn+tt。该实例启动正常。我能够创建目录,但是当我尝试put文件时,我得到一个Filecouldonlybereplicatedto0nodes,insteadof1error。当我执行hadoopfsck/时,出现Exceptioninthread"main"java.net.ConnectException:Connectionrefused错误。有谁知道我的配置有什么问题吗?

hadoop - 使用 Amazon AWS 中的公共(public)数据集是否需要支付数据传输费用?

基本上,我的单​​个t1.micro实例处于免费层级。我想使用维基百科转储文件公共(public)数据集。如果我在我的实例中处理来自该数据集的大约2-4GB数据,亚马逊会向我收费吗? 最佳答案 任何数据进入AWS网络都是免费的,如果您的数据从AWS网络移出则需要付费 关于hadoop-使用AmazonAWS中的公共(public)数据集是否需要支付数据传输费用?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群,并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此,即使我有100个区域(如果我有1个主节点),这也意味着整个IO都会受到限制吗?谢谢问候 最佳答案 您是否使用ElasticMapReduc

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写一个字段“HDFS主机”才能运行作业。自从我在本地机器上进行测试以来,我一直在使用“localhost”,而且效果很好。在AWSEMR上运行时,我盲目地尝试使用“localhost”,但作业失败了。我想知道的是我应该在该字段中输入什么主机名,以便weka调用正确的主机?是在启动集群时提供的公共(public)DNS名称,还是API中有一种方法可以为我获取该地址? 最佳答案 如果你想

hadoop - 无法通过命令行界面连接到亚马逊 AWS EMR

当我尝试通过命令行在AWS上运行mapreduce作业时遇到了问题。我必须执行大量相互链接的步骤(大约100个)。由于我不希望使用AWS图形界面手动配置它,因此我尝试使用CLI来完成它。然而,即使是最简单的命令也不起作用:$awsemrlist-clustershostname'elasticmapreduce.us-west-1.amazonaws.com'doesn'tmatchu'us-west-1.elasticmapreduce.amazonaws.com'在S3上,我的配置似乎工作正常,因为此命令创建存储桶没有任何问题:$awss3mbs3://randombigdatab

hadoop - AWS Spark 集群设置错误

我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"