草庐IT

azure-analysis-services

全部标签

azure - 如何通过门户管理 HDInsight 集群?

我最近开始使用WindowsAzure和HDInsight,以完成一些MapReduce工作。我想知道的是,是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群?我尝试了停止或暂停的选项,但找不到任何选项。任何帮助,将不胜感激。 最佳答案 HDInsight不支持除Running和Stopped之外的其他状态,这意味着无法将集群设置为暂停或Idle状态,这与其他云提供商不同。您可以找到添加此功能的请求here,如果你感兴趣。回答您的其他问题,通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

amazon-web-services - 尝试在 EMR 上安装 Spark 时引导失败

我正在使用此链接在EMR(Amazon上的ElasticMapReduce)上安装SparkClusterhttps://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923为了创建Spark集群,我运行了以下命令,但我的集群每次都遇到引导失败。我无法解决这个问题,如果有人能在这里帮助我,那就太好了。awsemrcreate-cluster--nameSparkCluster--ami-version3.2\--instance-typem3.xlarge--instance-count3--ec2-attributes\

azure - 从 Azure SQL 数据仓库查询 Hadoop ORC 表

我在从AzureSQL数据仓库读取在AzureHDInsight中创建的ORC表时遇到问题。请参阅下面的顺序来设置HDInsight实例以及AzureSQL数据仓库。我创建了一个文本文件(Sales.txt),内容如下20150614|1|10.5020150618|1|100.7520150924|1|89.7520160214|2|10456.9020150922|3|34.7020151021|3|43.7020151225|3|65.9020151231|3|87.5020160101|4|1349.4020160512|4|3982.4020150608|5|398.9020

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过,这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是,我很快意识到,为了正确运行我的应用程序,我需要Hadoop2.

java.lang.ClassNotFoundException : org. apache.hive.service.cli.HiveSQLException 异常

为了通过spring应用程序连接配置单元,我在pom.xml中添加了以下依赖项。org.apache.hivehive-jdbc2.1.1org.apache.thriftlibfb3030.9.3org.apache.hivehive-commonorg.apache.hivehive-service-rpc2.1.1Butstilliamfacingthebelowexception::Causedby:java.lang.NoClassDefFoundError:org/apache/hive/service/cli/HiveSQLExceptionatorg.apache.hi

azure - Azure Data Lake 中压缩编解码器的影响

很明显,有据可查的是,拆分zip文件的能力对Hadoop中作业的性能和并行化有很大影响。但是Azure是建立在Hadoop之上的,而且我在Microsoft文档中找不到的任何地方都没有提到这种影响。这不是ADL的问题吗?例如,GZip大文件现在是一种可接受的方法,还是我会遇到同样的问题,即由于压缩编解码器的选择而无法并行处理我的作业?谢谢 最佳答案 请注意,AzureDataLakeAnalytics不基于Hadoop。RojoSam是正确的,GZip是一种不好的并行化压缩格式。U-SQL会自动识别.gz文件并解压缩它们。但是,压缩

linux - 是否可以将 Azure datalake 作为驱动器安装在 linux 服务器上?

我们的最终目标是让我们的LinuxVM服务器将AzureDatalake作为挂载文件系统直接访问。Microsoft声明AzureDatalake与hdfs兼容,因此我们想知道是否可以通过Fuse之类的东西直接挂载或通过Hadoop系统间接挂载?Azure中的任何可用内容。拼命地从做过这件事的人那里寻找例子。 最佳答案 goofys支持挂载azuredatalake:https://github.com/kahing/goofys/blob/master/README-azure.md#azure-blob-storage

amazon-web-services - Hadoop配置属性

在我的Spark代码中,我必须在HadoopConfiguration中设置ACCESS_KEY和SECRET_KEY才能访问AWS-S3。在互联网上,我找到了多种设置这些属性的方法。例如样式#1,sc.hadoopConfiguration.set("fs.s3n.access.key",AWS_ACCESS_KEY)sc.hadoopConfiguration.set("fs.s3n.secret.key",AWS_SECRET_KEY)样式#2,sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",AWS_ACCESS_KEY)sc

azure - 将 HDInsight 集群升级/迁移到最新版本

我确定这已发布在某处或已经传达,但我似乎找不到任何关于从一个版本升级/迁移HDInsight集群到下一个版本的信息。一点背景。自2014年1月24日以来,我们一直在使用Hive和HDInsight来存储我们所有的IIS日志。我们喜欢它,它为我们的团队提供了很好的洞察力。我最近在评论http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/并注意到我们的HDInsight版本(2.1.3.0.432823)不再受支持,并将于5月弃用。这让我开始思考如何进入3.2版。我似乎无

amazon-web-services - 如何让 EMR 持续运行

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Re-useAmazonElasticMapReduceinstance我能否让已启动的EMR集群保持运行并继续向其提交新作业直到我完成(比如几天后)然后关闭集群,或者我是否必须在EC2中启动我自己的集群才能这样做?