草庐IT

azure-databricks

全部标签

java - Hive 流和 Azure Data Lake Store 的问题

我正在编写一个Play2JavaWeb应用程序以使用HiveStreamingAPI(https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest)将数据提取到HDInsight交互式查询。Hive数据存储在AzureDataLakeStore中。我松散地基于https://github.com/mradamlacey/hive-streaming-azure-hdinsight/blob/master/src/main/java/com/cbre/eim/HiveStreamingExample.java

azure - 对于 Hadoop,选择哪种数据存储,Amazon S3 还是 Azure Blob Store?

我正在处理Hadoop项目并在我的本地集群中生成大量数据。稍后我将使用基于云的Hadoop解决方案,因为与实际工作负载相比,我的Hadoop集群非常小,但是我现在无法选择我将使用哪一个,即基于WindowsAzure、EMR或其他。我在本地生成大量数据,并希望将这些数据存储到一些基于云的存储中,因为我将在稍后但很快将这些数据与Hadoop一起使用。我正在寻找建议,以根据某人的经验来决定选择哪个云存储。提前致谢。 最佳答案 首先这是一个很好的问题。让我们尝试理解“Hadoop中如何处理数据”:在Hadoop中,所有数据都在Hadoop

c#-4.0 - Azure C#Isotope 上的 Hadoop

在HadoopOnAzure的初始版本中,Microsoft提供了C#IsotopeSDK作为Azure上Hadoop集群的编程接口(interface)。在HDInsight发布后,这将从下载中删除。此外,在尝试使用以前版本的sdk时,我们得到了500-内部服务器错误。知道这个服务是否被禁用了吗?如果是这样,以编程方式与Azure上的HDInsight集群交互的替代方法是什么? 最佳答案 哦,您可以在Codeplex中找到适用于Hadoop的Microsoft.NETSDKhttp://hadoopsdk.codeplex.com

linux - 如何从基于 linux 的 Hadoop 客户端使用 Azure blob 存储?

这是我的设置:将wasb://mybucket设置为默认FS的HDInsightsHadoop集群。安装了HDP2.2RPM软件包的CentOS虚拟机。(我们称它为client1)我想做的是:local1>sshclient1client1>hadoopfs-ls/#listcontentsofblobstoragebucket.我已将以下键从hdinsights头节点上的core-site.xml复制到/etc/hadoop/conf/core-site.xml:fs.defaultFs-wasb://...fs.azure.account.key.mybucket.blob.cor

azure - 如何在 Azure HDInsight 的 Spark 集群中配置 HBase?

我已经在Azure中创建了HDInsight的Spark集群。现在我想将处理后的数据存储到HBASE中,我不想创建单独的HBASEHDInsight集群并使用VNET连接到Spark集群。这是因为我们限制每个区域60个核心(例如美国东部2)。我已经并且想要将所有60个内核用于我的Spark集群。所以想到在HDInsight的sparkCluster中安装HBASE。当我在HDInsightSpark集群中创建时,似乎已经有一个HBASE实例在运行。但这不会显示在Azure的集群仪表板(Ambari)或其任何配置中。而且我不确定它是否正常工作。当我执行“hbaseshell”时,出现如下

azure - 如何使用 webhdfs API 访问 Azure datalake

我们刚刚开始评估Azure的数据湖服务。我们创建了我们的湖,通过门户我们可以看到该服务的两个公共(public)URL。(一个是https://方案,一个是adl://方案)datalake文档指出确实有两个接口(interface):webHDFSRESTAPI和ADL。所以,我假设https://方案让我得到了wehHDFS接口(interface)。但是,我在Azure上找不到有关使用此界面的更多信息。我尝试使用网络浏览器和curl访问给定的https://URL。服务正在响应。回复是JSON,这是预期的,因为数据湖是Hadoop的一个实例。但是,我似乎无法访问我的文件[我通过门

azure - 在 Azure 上的 HDInsights 群集上使用 Data Lake 或 Blob

在Azure中创建HDInsightsHadoop集群时,有两个存储选项。AzureDataLakeStore(ADLS)或AzureBlob存储。这两个选项之间的真正区别是什么?它们如何影响性能?我找到了这个页面https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是很具体,只使用了非常笼统的术语,比如“ADLSisoptimizedforanalytics”。这是否意味着它更适合存储HDInsights文件系统?如果ADLS确实更快

csv - 在 Azure Blob 存储的多个 CSV blob 上创建 Hive 表

我有一个AzureBlob存储。在一个名为DATA的容器中,我有以下方式的CSVblob-现在我已经使用HDInsight创建了一个Hadoop集群。作为下一部分,我想创建用于查询的Hive表。我有一些具体问题。1)如何在单个查询中将所有BLOBS加载到Hive表?对于单个BLOB,我可以使用类似以下查询的内容。但是如何在单个查询中为多个Blob执行此操作?#Usetheexternaltableoption.$queryString="DROPTABLElog4jLogs;"+"CREATEEXTERNALTABLElog4jLogs(t1string,t2string,t3stri

azure - Hadoop on Azure 创建新集群

我可以通过界面创建一个新的Hadoop集群,但需要根据要求创建一个新的集群。有谁知道是否存在用于创建新集群的API? 最佳答案 还没有。截至目前(预览版),您必须使用WindowsAzure管理门户界面在WindowsAzure订阅中创建Hadoop集群。由于大多数WindowsAzure管理功能在Powershell上可用,因此可以通过REST将此类功能内置到Powershell中,如所述here但是我不知道有什么近期计划。 关于azure-HadooponAzure创建新集群,我们在

azure - 启动 Hive Metastore 时无法创建 ServerSocket

在HDInsight集群(MicrosoftAzure的Hadoop发行版)上启动HiveMetastore时,出现此错误:org.apache.thrift.transport.TTransportException:CouldnotcreateServerSocketonaddress0.0.0.0/0.0.0.0:9083.atorg.apache.thrift.transport.TServerSocket.(TServerSocket.java:93)atorg.apache.thrift.transport.TServerSocket.(TServerSocket.java