ADB_SERVICES_草庐IT

hadoop - Apache Kylin 是 SSRS(SQL Server Reporting Services)的良好替代品吗？

我们有分析数据的框架，借助OLAP的立方体设计和有ETL连接的仓库，它们都是sqlServer结构和SSRS(SQLServerReportingServices)。我们的一些报告需要很长时间才能得出结论，我们决定迁移到Hadoop生态系统。ApacheKylin是这个框架的一个很好的替代品吗？最佳答案首先，我会将SQLServerAnalysisServices与Kylin进行比较，而不是将ReportingServices与ReportingServices进行比较，因为ReportingServices更接近于前端系统。根

amazon-web-services - 如何使用 HadoopJarStep Config.Step 属性？

AWS文档指出此属性是“作业流程步骤运行时设置的Java属性列表。您可以使用这些属性将键值对传递给JAR文件中的主函数。”但是没有解释(至少我没有找到)它们是如何传递的，以及如何在主函数端正确访问所述键值对集合。快速检查证明它们不是通过环境或命令行参数传递的。可以用其他方式吗？最佳答案好吧，似乎这个映射转到了Java系统属性，并且可以通过System.getProperties()调用从主函数端访问，但是有一些不明显的含义。首先要记住的是，它们在内部通过环境变量HADOOP_CLIENT_OPTS设置为-Dkey=value开关

amazon-web-services HadoopJarStep section shell 传递 hadoop emr amazon-emr

amazon-web-services - 在 AWS EMR 中编辑配置文件

在哪里可以找到AWSEMR的配置文件？主要是我在寻找hue.ini文件，我启动了一个新集群，打开了hueUI，创建了新的super用户并登录。然后我看到了该区域中的所有s3存储桶，但我无法访问存储桶中的文件，我不断收到此错误-Failedtoaccesspath:"s3a://data-storage"Checkthatyouhaveaccesstoreadthisbucketandthattheregioniscorrect:BadRequest.然后我尝试按照这个将我的s3帐户添加到hue-http://gethue.com/introducing-s3-support-in-hu

amazon-web-services services section hue code hadoop amazon-s3 amazon-emr

amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势

我了解将“spark.deploy.spreadOut”设置为true可以使HDFS受益，但是对于S3，设置为false是否比true更有优势？最佳答案如果您正在运行Hadoop和HDFS，那么使用该属性适用的SparkStandalone调度程序不会对您有好处。相反，您应该运行YARN，并且ResourceManager确定执行程序的分布方式如果您在EC2中运行独立调度程序，则设置该属性会有所帮助，默认值为true。换句话说，你从哪里读取数据不是这里的决定因素，master的部署模式是更好的性能优势将来自您尝试读取的文件数量以

amazon-web-services amp section strong 中运 apache-spark hadoop amazon-s3 hdfs

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

我已经在AmazonEC2上使用NameNode/DataNode和其他一些服务设置了一个Hadoop集群。我的摄取工作将数据带入EC2HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有一个每周批量运行的管道。我正在启动一个新的AmazonEMR集群来运行我的计算。处理完成后，我将终止EMR集群。需要在EMR中运行的我的spark作业的输入位于EC2HDFS(hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问它？我相信在EMR集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。最佳答案

amazon-web-services HDFS section code apache-spark hadoop amazon-ec2

amazon-web-services - 在EMR集群上如何进入/etc/hadoop/conf这个路径？

我是EMR和Spark的新手。我正在执行此处提到的这些步骤https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/.在第5步中，它说复制远程AmazonEMR集群上/etc/hadoop/conf中的所有文件。。想知道如何从/etc/hadoop/conf获取这些文件。如果我的理解有误，请指正。在此先感谢并感谢。最佳答案通过ssh访问EMR实例，进入文件夹/etc/hadoop/conf并将所有文件复制到

amazon-web-services services section EMR hadoop apache-spark amazon-emr

amazon-web-services - 无法访问端口 7180 上的 cloudera 管理器

按照官方说明在AWSEC2实例上安装ClouderaManager:http://www.cloudera.com/documentation/archive/manager/4-x/4-6-0/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html我成功运行了.bin包，但是当我访问IP:7180时，浏览器说我的访问被拒绝了...为什么...我试图确认cm服务器的状态:servicecloudera-scm-serverstatus。起初它说cloudera-scm-server挂了，pid文件存在日志文件显示提到“未

amazon-web-services services code cloudera section hadoop cloudera-manager

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置，其中TB的记录将写入KAFKA主题，使用KAFKAconnect-HDFS连接器的最佳实践是什么？我的kafka实例在AWS主机名a.b.c.d上运行，我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的，我们在运行kafka实例的同一个盒子中保持融合，即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置，是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合？在这样的生产案例中，confluent需要多少单独的磁盘大小？最佳答案

amazon-web-services services section 的汇合 hadoop apache-kafka hdfs apache-kafka-connect

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后，当我尝试使用AWSCrawler读取athena中的数据时，我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗？最佳答案谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

HIVE_CANNOT_OPEN_SPLIT amazon-web-services section spark hadoop pyspark aws-glue

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后，由于未解析的地址和类似的消息，频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services services DFSOutputStream hadoop java apache-spark amazon-emr