草庐IT

azure-devops

全部标签

azure - 在 Azure SQL 数据仓库中使用 Polybase 访问 Hadoop (Azure IaaS) HDFS 文件

我正在尝试使用AzureSQLDW中的Polybase访问ClouderaCluster(在Azure中作为IaaS提供)中HDFS中的分隔文件,但是我遇到了以下错误:Msg105019,Level16,State1,Line40EXTERNALTABLEaccessfailedduetointernalerror:'JavaexceptionraisedoncalltoHdfsBridge_IsDirExist.Javaexceptionmessage:CallFromDB55/10.0.0.59to10...:8020failedonsockettimeoutexception:o

SQL 2016 PolyBase 计算下推到使用 WASBS aka Azure Blob 的 Hadoop HDI

我们有一个AzureHadoopHDI系统,其中大部分文件存储在Azure存储帐户Blob中。从Hadoop访问文件需要WASBS://文件系统类型。我想配置SQL2016Polybase以针对存储在Azureblob中的某些数据查询将计算下推到HDI集群。可以在Polybase中的Hadoop之外使用AzureBlob。我完全理解查询提示“option(FORCEEXTERNALPUSHDOWN)”在Blob系统上不起作用。是否可以配置外部数据源以使用HDI在blob上进行计算?典型的外部数据源配置是:CREATEEXTERNALDATASOURCEAzureStoragewith(

azure - NativeAzureFileSystem 无法识别其他容器

我的目标是从HDInsight实例的spark-shell访问位于创建集群的存储帐户内的容器中的blob。这些是我采取的步骤:在容器上创建了一个HDInsight集群https://mystorage.blob.core.windows.net:443/主容器。在同一存储帐户上创建了另一个容器:https://mystorage.blob.core.windows.net:443/外容器。在extracontainer中创建了一个名为person.json的文件:https://mystorage.blob.core.windows.net:443/extracontainer/dat

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储,数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本,我正在尝试在ADF中添加/创建一个hive/Pig事件,从pig/hive的代码我正在调用一个shell脚本;作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时,我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径;有没有人遇到过类似的问题,或者有没有人部署了p

java - Hive 流和 Azure Data Lake Store 的问题

我正在编写一个Play2JavaWeb应用程序以使用HiveStreamingAPI(https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest)将数据提取到HDInsight交互式查询。Hive数据存储在AzureDataLakeStore中。我松散地基于https://github.com/mradamlacey/hive-streaming-azure-hdinsight/blob/master/src/main/java/com/cbre/eim/HiveStreamingExample.java

azure - 对于 Hadoop,选择哪种数据存储,Amazon S3 还是 Azure Blob Store?

我正在处理Hadoop项目并在我的本地集群中生成大量数据。稍后我将使用基于云的Hadoop解决方案,因为与实际工作负载相比,我的Hadoop集群非常小,但是我现在无法选择我将使用哪一个,即基于WindowsAzure、EMR或其他。我在本地生成大量数据,并希望将这些数据存储到一些基于云的存储中,因为我将在稍后但很快将这些数据与Hadoop一起使用。我正在寻找建议,以根据某人的经验来决定选择哪个云存储。提前致谢。 最佳答案 首先这是一个很好的问题。让我们尝试理解“Hadoop中如何处理数据”:在Hadoop中,所有数据都在Hadoop

c#-4.0 - Azure C#Isotope 上的 Hadoop

在HadoopOnAzure的初始版本中,Microsoft提供了C#IsotopeSDK作为Azure上Hadoop集群的编程接口(interface)。在HDInsight发布后,这将从下载中删除。此外,在尝试使用以前版本的sdk时,我们得到了500-内部服务器错误。知道这个服务是否被禁用了吗?如果是这样,以编程方式与Azure上的HDInsight集群交互的替代方法是什么? 最佳答案 哦,您可以在Codeplex中找到适用于Hadoop的Microsoft.NETSDKhttp://hadoopsdk.codeplex.com

linux - 如何从基于 linux 的 Hadoop 客户端使用 Azure blob 存储?

这是我的设置:将wasb://mybucket设置为默认FS的HDInsightsHadoop集群。安装了HDP2.2RPM软件包的CentOS虚拟机。(我们称它为client1)我想做的是:local1>sshclient1client1>hadoopfs-ls/#listcontentsofblobstoragebucket.我已将以下键从hdinsights头节点上的core-site.xml复制到/etc/hadoop/conf/core-site.xml:fs.defaultFs-wasb://...fs.azure.account.key.mybucket.blob.cor

azure - 如何在 Azure HDInsight 的 Spark 集群中配置 HBase?

我已经在Azure中创建了HDInsight的Spark集群。现在我想将处理后的数据存储到HBASE中,我不想创建单独的HBASEHDInsight集群并使用VNET连接到Spark集群。这是因为我们限制每个区域60个核心(例如美国东部2)。我已经并且想要将所有60个内核用于我的Spark集群。所以想到在HDInsight的sparkCluster中安装HBASE。当我在HDInsightSpark集群中创建时,似乎已经有一个HBASE实例在运行。但这不会显示在Azure的集群仪表板(Ambari)或其任何配置中。而且我不确定它是否正常工作。当我执行“hbaseshell”时,出现如下

azure - 如何使用 webhdfs API 访问 Azure datalake

我们刚刚开始评估Azure的数据湖服务。我们创建了我们的湖,通过门户我们可以看到该服务的两个公共(public)URL。(一个是https://方案,一个是adl://方案)datalake文档指出确实有两个接口(interface):webHDFSRESTAPI和ADL。所以,我假设https://方案让我得到了wehHDFS接口(interface)。但是,我在Azure上找不到有关使用此界面的更多信息。我尝试使用网络浏览器和curl访问给定的https://URL。服务正在响应。回复是JSON,这是预期的,因为数据湖是Hadoop的一个实例。但是,我似乎无法访问我的文件[我通过门