草庐IT

amazon-ebs

全部标签

amazon-s3 - Hadoop 输入文件

在运行hadoop时,输入文件夹中有n个文件,每个文件有1行,与输入文件夹中有1个文件,有n行,这两者有区别吗?如果有n个文件,“InputFormat”是否只将其视为1个连续文件? 最佳答案 有很大的不同。它经常被称为“小文件问题”,并且与Hadoop希望将巨大的输入拆分为更小的任务,而不是将小的输入收集到更大的任务中这一事实有关。看看Cloudera的这篇博文:http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/如果可以避免创建大量文件,那就这样做吧。尽

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

java - 在 Amazon EMR 中运行 hadoop jar

我为map-reduce应用程序创建了一个自定义jar,并尝试在AmazonEMR作业流程中运行它。我在hadoop1.0.4中编译了代码,但是AmazonEMR支持Hadoop1.0.3。此外,我在jdk1.7下编译了代码,但我不确定AmazonEMR使用哪个版本的java,我们可以在哪里更改它?这是堆栈跟踪Exceptioninthread"main"java.lang.UnsupportedClassVersionError:com/test/GWASMapReduce:Unsupportedmajor.minorversion51.0atjava.lang.ClassLoade

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

我的EMR集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目都是多行,但有一个开始和结束标记来区分两个条目。现在,并非日志文件中的所有条目都是有用的有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以高效地查询(使用Hive)输出日志。我有一个python脚本,它可以简单地获取一个日志文件并执行a部分。和b。上面提到过,但我没有编写任何映射器或缩减器。Hive负责为其查询处理Mappers和Reducers。请告诉我是否以及如何使用python脚本在所有日志上运行它并将输出保存在'hdfs:///outputlogs'中?我是MapReduce的新手,看过一

Amazon EMR 上的 Hadoop Webhdfs 删除选项失败

我正在尝试查看删除选项是否适用于webhdfs:http://ec2-ab-cd-ef-hi.compute-1.amazonaws.com:14000/webhdfs/v1/user/barak/barakFile.csv?op=DELETE&user.name=hadoop但是我得到一个错误:{"RemoteException":{"message":"InvalidHTTPGEToperation[DELETE]","exception":"IOException","javaClassName":"java.io.IOException"}}此文件拥有所有权限(777)。[ha

hadoop - 使用 amazon s3 作为输入、输出并将中间结果存储在 EMR map reduce 作业中

我正在尝试将Amazons3存储与EMR结合使用。但是,当我当前运行我的代码时,出现多个错误,例如java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://10.254.37.109:9000)doesnotsupportaccesstotherequestpath's3n://energydata/input/centers_200_10k_norm.csv'YoupossiblycalledFileSystem.get(conf)whenyoushouldhavecalledFileSystem.get(uri,c

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是,每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时,它只是卡在那里,似乎没有做任何事情。如有任何帮助,我们将不胜感激。 最佳答案 我会先从配置单元命令行获取调试输出,看看它卡在哪里。使用此参数运行配置单元shell,然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序,我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?

我有一个s3存储桶,其中包含大约300gb的日志文件,没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用,以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如,1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式