草庐IT

amazon-cloudformation

全部标签

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后,当我尝试使用AWSCrawler读取athena中的数据时,我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗? 最佳答案 谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-s3 - Hadoop 输入文件

在运行hadoop时,输入文件夹中有n个文件,每个文件有1行,与输入文件夹中有1个文件,有n行,这两者有区别吗?如果有n个文件,“InputFormat”是否只将其视为1个连续文件? 最佳答案 有很大的不同。它经常被称为“小文件问题”,并且与Hadoop希望将巨大的输入拆分为更小的任务,而不是将小的输入收集到更大的任务中这一事实有关。看看Cloudera的这篇博文:http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/如果可以避免创建大量文件,那就这样做吧。尽

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

java - 在 Amazon EMR 中运行 hadoop jar

我为map-reduce应用程序创建了一个自定义jar,并尝试在AmazonEMR作业流程中运行它。我在hadoop1.0.4中编译了代码,但是AmazonEMR支持Hadoop1.0.3。此外,我在jdk1.7下编译了代码,但我不确定AmazonEMR使用哪个版本的java,我们可以在哪里更改它?这是堆栈跟踪Exceptioninthread"main"java.lang.UnsupportedClassVersionError:com/test/GWASMapReduce:Unsupportedmajor.minorversion51.0atjava.lang.ClassLoade

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

我的EMR集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目都是多行,但有一个开始和结束标记来区分两个条目。现在,并非日志文件中的所有条目都是有用的有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以高效地查询(使用Hive)输出日志。我有一个python脚本,它可以简单地获取一个日志文件并执行a部分。和b。上面提到过,但我没有编写任何映射器或缩减器。Hive负责为其查询处理Mappers和Reducers。请告诉我是否以及如何使用python脚本在所有日志上运行它并将输出保存在'hdfs:///outputlogs'中?我是MapReduce的新手,看过一

Amazon EMR 上的 Hadoop Webhdfs 删除选项失败

我正在尝试查看删除选项是否适用于webhdfs:http://ec2-ab-cd-ef-hi.compute-1.amazonaws.com:14000/webhdfs/v1/user/barak/barakFile.csv?op=DELETE&user.name=hadoop但是我得到一个错误:{"RemoteException":{"message":"InvalidHTTPGEToperation[DELETE]","exception":"IOException","javaClassName":"java.io.IOException"}}此文件拥有所有权限(777)。[ha

hadoop - 使用 amazon s3 作为输入、输出并将中间结果存储在 EMR map reduce 作业中

我正在尝试将Amazons3存储与EMR结合使用。但是,当我当前运行我的代码时,出现多个错误,例如java.lang.IllegalArgumentException:Thisfilesystemobject(hdfs://10.254.37.109:9000)doesnotsupportaccesstotherequestpath's3n://energydata/input/centers_200_10k_norm.csv'YoupossiblycalledFileSystem.get(conf)whenyoushouldhavecalledFileSystem.get(uri,c

amazon-ec2 - 当我尝试进行查询时 Hive 没有响应

我在使用Whirr启动新的hadoop实例的EC2实例上进行了设置。我一直在尝试让Hive使用此设置。Hive应配置为使用mysql作为本地元存储。我遇到的问题是,每次我尝试通过配置单元界面运行类似(CREATETABLEtesters(fooINT,barkSTRING);)这样的查询时,它只是卡在那里,似乎没有做任何事情。如有任何帮助,我们将不胜感激。 最佳答案 我会先从配置单元命令行获取调试输出,看看它卡在哪里。使用此参数运行配置单元shell,然后粘贴命令的输出。hive-hiveconfhive.root.logger=D

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序,我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策