草庐IT

amazon-athena

全部标签

hadoop - Amazon/EMR 上的 BZip2 原生拆分

我们有一个关于AmazonEMRHadoop作业压缩输入的具体问题。根据AWS:"Hadoop通过检查文件扩展名来检测压缩文件。Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些压缩类型提取文件;Hadoop会处理它给你。”q.v.,http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HowtoProcessGzippedFiles.html这看起来不错——但是,查看BZip2,“拆分”边界似乎是基于文件的:.magic:16='BZ'signature/mag

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr

amazon-web-services - 无法访问端口 7180 上的 cloudera 管理器

按照官方说明在AWSEC2实例上安装ClouderaManager:http://www.cloudera.com/documentation/archive/manager/4-x/4-6-0/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html我成功运行了.bin包,但是当我访问IP:7180时,浏览器说我的访问被拒绝了...为什么...我试图确认cm服务器的状态:servicecloudera-scm-serverstatus。起初它说cloudera-scm-server挂了,pid文件存在日志文件显示提到“未

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置,其中TB的记录将写入KAFKA主题,使用KAFKAconnect-HDFS连接器的最佳实践是什么?我的kafka实例在AWS主机名a.b.c.d上运行,我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的,我们在运行kafka实例的同一个盒子中保持融合,即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置,是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合?在这样的生产案例中,confluent需要多少单独的磁盘大小? 最佳答案

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后,当我尝试使用AWSCrawler读取athena中的数据时,我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗? 最佳答案 谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-s3 - Hadoop 输入文件

在运行hadoop时,输入文件夹中有n个文件,每个文件有1行,与输入文件夹中有1个文件,有n行,这两者有区别吗?如果有n个文件,“InputFormat”是否只将其视为1个连续文件? 最佳答案 有很大的不同。它经常被称为“小文件问题”,并且与Hadoop希望将巨大的输入拆分为更小的任务,而不是将小的输入收集到更大的任务中这一事实有关。看看Cloudera的这篇博文:http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/如果可以避免创建大量文件,那就这样做吧。尽

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

java - 在 Amazon EMR 中运行 hadoop jar

我为map-reduce应用程序创建了一个自定义jar,并尝试在AmazonEMR作业流程中运行它。我在hadoop1.0.4中编译了代码,但是AmazonEMR支持Hadoop1.0.3。此外,我在jdk1.7下编译了代码,但我不确定AmazonEMR使用哪个版本的java,我们可以在哪里更改它?这是堆栈跟踪Exceptioninthread"main"java.lang.UnsupportedClassVersionError:com/test/GWASMapReduce:Unsupportedmajor.minorversion51.0atjava.lang.ClassLoade

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

我的EMR集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目都是多行,但有一个开始和结束标记来区分两个条目。现在,并非日志文件中的所有条目都是有用的有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以高效地查询(使用Hive)输出日志。我有一个python脚本,它可以简单地获取一个日志文件并执行a部分。和b。上面提到过,但我没有编写任何映射器或缩减器。Hive负责为其查询处理Mappers和Reducers。请告诉我是否以及如何使用python脚本在所有日志上运行它并将输出保存在'hdfs:///outputlogs'中?我是MapReduce的新手,看过一