amazon-ebs

amazon-s3 - Hadoop 输入文件

在运行hadoop时，输入文件夹中有n个文件，每个文件有1行，与输入文件夹中有1个文件，有n行，这两者有区别吗？如果有n个文件，“InputFormat”是否只将其视为1个连续文件？最佳答案有很大的不同。它经常被称为“小文件问题”，并且与Hadoop希望将巨大的输入拆分为更小的任务，而不是将小的输入收集到更大的任务中这一事实有关。看看Cloudera的这篇博文:http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/如果可以避免创建大量文件，那就这样做吧。尽

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手，所以如果我问的问题很愚蠢，请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

amazon-web-services services java whirr ComputeServiceContextBuilder hadoop cloudera

java - 在 Amazon EMR 中运行 hadoop jar

我为map-reduce应用程序创建了一个自定义jar，并尝试在AmazonEMR作业流程中运行它。我在hadoop1.0.4中编译了代码，但是AmazonEMR支持Hadoop1.0.3。此外，我在jdk1.7下编译了代码，但我不确定AmazonEMR使用哪个版本的java，我们可以在哪里更改它？这是堆栈跟踪Exceptioninthread"main"java.lang.UnsupportedClassVersionError:com/test/GWASMapReduce:Unsupportedmajor.minorversion51.0atjava.lang.ClassLoade

中运 Amazon java ClassLoader URLClassLoader hadoop amazon-emr

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

我的EMR集群中有很多日志文件，路径为“hdfs:///logs”。每个日志条目都是多行，但有一个开始和结束标记来区分两个条目。现在，并非日志文件中的所有条目都是有用的有用的条目需要转换，输出需要存储在输出文件中，以便我以后可以高效地查询(使用Hive)输出日志。我有一个python脚本，它可以简单地获取一个日志文件并执行a部分。和b。上面提到过，但我没有编写任何映射器或缩减器。Hive负责为其查询处理Mappers和Reducers。请告诉我是否以及如何使用python脚本在所有日志上运行它并将输出保存在'hdfs:///outputlogs'中？我是MapReduce的新手，看过一

hadoop Amazon code section hive hadoop-streaming emr

Amazon EMR 上的 Hadoop Webhdfs 删除选项失败

我正在尝试查看删除选项是否适用于webhdfs:http://ec2-ab-cd-ef-hi.compute-1.amazonaws.com:14000/webhdfs/v1/user/barak/barakFile.csv?op=DELETE&user.name=hadoop但是我得到一个错误:{"RemoteException":{"message":"InvalidHTTPGEToperation[DELETE]","exception":"IOException","javaClassName":"java.io.IOException"}}此文件拥有所有权限(777)。[ha

Webhdfs Amazon section hadoop code amazon-web-services emr

hadoop - 使用 amazon s3 作为输入、输出并将中间结果存储在 EMR map reduce 作业中

我正在尝试将Amazons3存储与EMR结合使用。但是，当我当前运行我的代码时，出现多个错误，例如java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://10.254.37.109:9000)doesnotsupportaccesstotherequestpath's3n://energydata/input/centers_200_10k_norm.csv'YoupossiblycalledFileSystem.get(conf)whenyoushouldhavecalledFileSystem.get(uri,c

并将 hadoop FileSystem java amazon-web-services amazon-s3 mapreduce amazon-emr

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是，每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时，它只是卡在那里，似乎没有做任何事情。如有任何帮助，我们将不胜感激。最佳答案我会先从配置单元命令行获取调试输出，看看它卡在哪里。使用此参数运行配置单元shell，然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-ec amazon section 配置单 stackoverflow amazon-ec2 hadoop hive

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序，我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services Mapreduce section emr-manage-view-web-log-files ElasticMapReduce hadoop spark-streaming amazon-emr

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗？与此同时，我在此服务器上安装了awscli，我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon amazon-web-services section SecretAccessKey hadoop amazon-s3 hdfs

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用？

我有一个s3存储桶，其中包含大约300gb的日志文件，没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用，以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如，1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

amazon-s amazon section 条目射器 amazon-s3 hadoop mapreduce hive

129 130 131132133 134 135