草庐IT

ddd-service

全部标签

amazon-web-services - 无法访问端口 7180 上的 cloudera 管理器

按照官方说明在AWSEC2实例上安装ClouderaManager:http://www.cloudera.com/documentation/archive/manager/4-x/4-6-0/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html我成功运行了.bin包,但是当我访问IP:7180时,浏览器说我的访问被拒绝了...为什么...我试图确认cm服务器的状态:servicecloudera-scm-serverstatus。起初它说cloudera-scm-server挂了,pid文件存在日志文件显示提到“未

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置,其中TB的记录将写入KAFKA主题,使用KAFKAconnect-HDFS连接器的最佳实践是什么?我的kafka实例在AWS主机名a.b.c.d上运行,我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的,我们在运行kafka实例的同一个盒子中保持融合,即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置,是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合?在这样的生产案例中,confluent需要多少单独的磁盘大小? 最佳答案

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后,当我尝试使用AWSCrawler读取athena中的数据时,我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗? 最佳答案 谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

amazon-web-services - 登录 Elastic Mapreduce 的最佳实践 - AWS

我计划将AmazonEMR用于SparkStreaming应用程序。亚马逊提供了一个很好的界面来显示标准错误和Controller日志。但是对于流式应用程序,我不确定如何管理日志。亚马逊将数据记录到/var/log/hadoop/steps/和Spark的类似地方。http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-view-web-log-files.html我想知道我们如何轮换日志并且仍然可以通过awsemrWeb界面访问。我们可以通过配置hadoop-log4j轻松更改日志轮换策

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

amazon-web-services - 降低亚马逊 EMR 上 100% Cpu 利用率的 Hive 技巧

我正在使用下表来处理大约15GB(.gz压缩)的iislog。使用亚马逊EMR(1个中型主实例、4个大型核心实例、2个任务实例)。甚至需要大约1小时才能获得此查询的结果:selecturi,cs_CookieasCookie,count(*)ashitsfromtmp1groupbycs_Cookie,uriorderbyhitsDesc;我看到所有DataNode上的cpu利用率每次都是100%。那么,有人可以建议如何减少查询时间和cpu利用率吗?表定义:createexternaltablemarData(logdatestring,timestring,computernames

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面,我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标,并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式,以便所有映射器都能看到。有这方面的说明吗?谢谢。 最佳答案 最后我知道了怎么做。所以,为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

amazon-web-services - 由 s3 透明支持的 EMR hdfs

有了hadoop,我可以使用s3作为存储url。但目前我有很多使用hdfs://...的应用程序,我想将整个集群和应用程序迁移到EMR和s3。我是否必须将每个应用程序中的url从hdfs://...更改为s3://...或者是否可以以某种方式告诉EMR存储s3上的hdfs内容所以每个应用程序仍然可以使用hdfs://...但实际上它会指向s3?如果是,怎么办? 最佳答案 这是一个很好的问题。有协议(protocol)欺骗这样的东西吗?您真的可以通过编写覆盖协议(protocol)处理方式的内容来影响此行为吗?老实说,这种解决方案让我