amazon-cloudformation

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后，当我尝试使用AWSCrawler读取athena中的数据时，我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗？最佳答案谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后，由于未解析的地址和类似的消息，频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services services DFSOutputStream hadoop java apache-spark amazon-emr

amazon-s3 - Hadoop 输入文件

在运行hadoop时，输入文件夹中有n个文件，每个文件有1行，与输入文件夹中有1个文件，有n行，这两者有区别吗？如果有n个文件，“InputFormat”是否只将其视为1个连续文件？最佳答案有很大的不同。它经常被称为“小文件问题”，并且与Hadoop希望将巨大的输入拆分为更小的任务，而不是将小的输入收集到更大的任务中这一事实有关。看看Cloudera的这篇博文:http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/如果可以避免创建大量文件，那就这样做吧。尽

amazon-s amazon section the-small-files-problem 文件 amazon-s3 hadoop

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手，所以如果我问的问题很愚蠢，请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

amazon-web-services services java whirr ComputeServiceContextBuilder hadoop cloudera

java - 在 Amazon EMR 中运行 hadoop jar

我为map-reduce应用程序创建了一个自定义jar，并尝试在AmazonEMR作业流程中运行它。我在hadoop1.0.4中编译了代码，但是AmazonEMR支持Hadoop1.0.3。此外，我在jdk1.7下编译了代码，但我不确定AmazonEMR使用哪个版本的java，我们可以在哪里更改它？这是堆栈跟踪Exceptioninthread"main"java.lang.UnsupportedClassVersionError:com/test/GWASMapReduce:Unsupportedmajor.minorversion51.0atjava.lang.ClassLoade

中运 Amazon java ClassLoader URLClassLoader hadoop amazon-emr

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

我的EMR集群中有很多日志文件，路径为“hdfs:///logs”。每个日志条目都是多行，但有一个开始和结束标记来区分两个条目。现在，并非日志文件中的所有条目都是有用的有用的条目需要转换，输出需要存储在输出文件中，以便我以后可以高效地查询(使用Hive)输出日志。我有一个python脚本，它可以简单地获取一个日志文件并执行a部分。和b。上面提到过，但我没有编写任何映射器或缩减器。Hive负责为其查询处理Mappers和Reducers。请告诉我是否以及如何使用python脚本在所有日志上运行它并将输出保存在'hdfs:///outputlogs'中？我是MapReduce的新手，看过一

hadoop Amazon code section hive hadoop-streaming emr

Amazon EMR 上的 Hadoop Webhdfs 删除选项失败

我正在尝试查看删除选项是否适用于webhdfs:http://ec2-ab-cd-ef-hi.compute-1.amazonaws.com:14000/webhdfs/v1/user/barak/barakFile.csv?op=DELETE&user.name=hadoop但是我得到一个错误:{"RemoteException":{"message":"InvalidHTTPGEToperation[DELETE]","exception":"IOException","javaClassName":"java.io.IOException"}}此文件拥有所有权限(777)。[ha

Webhdfs Amazon section hadoop code amazon-web-services emr

hadoop - 使用 amazon s3 作为输入、输出并将中间结果存储在 EMR map reduce 作业中

我正在尝试将Amazons3存储与EMR结合使用。但是，当我当前运行我的代码时，出现多个错误，例如java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://10.254.37.109:9000)doesnotsupportaccesstotherequestpath's3n://energydata/input/centers_200_10k_norm.csv'YoupossiblycalledFileSystem.get(conf)whenyoushouldhavecalledFileSystem.get(uri,c

并将 hadoop FileSystem java amazon-web-services amazon-s3 mapreduce amazon-emr

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是，每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时，它只是卡在那里，似乎没有做任何事情。如有任何帮助，我们将不胜感激。最佳答案我会先从配置单元命令行获取调试输出，看看它卡在哪里。使用此参数运行配置单元shell，然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-ec amazon section 配置单 stackoverflow amazon-ec2 hadoop hive

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序，我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services Mapreduce section emr-manage-view-web-log-files ElasticMapReduce hadoop spark-streaming amazon-emr

127 128 129130131 132 133