azure-databricks

java - Hive 流和 Azure Data Lake Store 的问题

我正在编写一个Play2JavaWeb应用程序以使用HiveStreamingAPI(https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest)将数据提取到HDInsight交互式查询。Hive数据存储在AzureDataLakeStore中。我松散地基于https://github.com/mradamlacey/hive-streaming-azure-hdinsight/blob/master/src/main/java/com/cbre/eim/HiveStreamingExample.java

azure - 对于 Hadoop，选择哪种数据存储，Amazon S3 还是 Azure Blob Store？

我正在处理Hadoop项目并在我的本地集群中生成大量数据。稍后我将使用基于云的Hadoop解决方案，因为与实际工作负载相比，我的Hadoop集群非常小，但是我现在无法选择我将使用哪一个，即基于WindowsAzure、EMR或其他。我在本地生成大量数据，并希望将这些数据存储到一些基于云的存储中，因为我将在稍后但很快将这些数据与Hadoop一起使用。我正在寻找建议，以根据某人的经验来决定选择哪个云存储。提前致谢。最佳答案首先这是一个很好的问题。让我们尝试理解“Hadoop中如何处理数据”:在Hadoop中，所有数据都在Hadoop

种数 Hadoop li section azure amazon-web-services emr

c#-4.0 - Azure C#Isotope 上的 Hadoop

在HadoopOnAzure的初始版本中，Microsoft提供了C#IsotopeSDK作为Azure上Hadoop集群的编程接口(interface)。在HDInsight发布后，这将从下载中删除。此外，在尝试使用以前版本的sdk时，我们得到了500-内部服务器错误。知道这个服务是否被禁用了吗？如果是这样，以编程方式与Azure上的HDInsight集群交互的替代方法是什么？最佳答案哦，您可以在Codeplex中找到适用于Hadoop的Microsoft.NETSDKhttp://hadoopsdk.codeplex.com

Isotope Hadoop section noreferrer com c#-4.0 azure azure-hdinsight

linux - 如何从基于 linux 的 Hadoop 客户端使用 Azure blob 存储？

这是我的设置:将wasb://mybucket设置为默认FS的HDInsightsHadoop集群。安装了HDP2.2RPM软件包的CentOS虚拟机。(我们称它为client1)我想做的是:local1>sshclient1client1>hadoopfs-ls/#listcontentsofblobstoragebucket.我已将以下键从hdinsights头节点上的core-site.xml复制到/etc/hadoop/conf/core-site.xml:fs.defaultFs-wasb://...fs.azure.account.key.mybucket.blob.cor

linux Hadoop azure code section

azure - 如何在 Azure HDInsight 的 Spark 集群中配置 HBase？

我已经在Azure中创建了HDInsight的Spark集群。现在我想将处理后的数据存储到HBASE中，我不想创建单独的HBASEHDInsight集群并使用VNET连接到Spark集群。这是因为我们限制每个区域60个核心(例如美国东部2)。我已经并且想要将所有60个内核用于我的Spark集群。所以想到在HDInsight的sparkCluster中安装HBASE。当我在HDInsightSpark集群中创建时，似乎已经有一个HBASE实例在运行。但这不会显示在Azure的集群仪表板(Ambari)或其任何配置中。而且我不确定它是否正常工作。当我执行“hbaseshell”时，出现如下

何在 HDInsight section Spark azure hadoop apache-spark hortonworks-data-platform azure-hdinsight

azure - 如何使用 webhdfs API 访问 Azure datalake

我们刚刚开始评估Azure的数据湖服务。我们创建了我们的湖，通过门户我们可以看到该服务的两个公共(public)URL。(一个是https://方案，一个是adl://方案)datalake文档指出确实有两个接口(interface):webHDFSRESTAPI和ADL。所以，我假设https://方案让我得到了wehHDFS接口(interface)。但是，我在Azure上找不到有关使用此界面的更多信息。我尝试使用网络浏览器和curl访问给定的https://URL。服务正在响应。回复是JSON，这是预期的，因为数据湖是Hadoop的一个实例。但是，我似乎无法访问我的文件[我通过门

datalake webhdfs https client section azure hadoop curl azure-data-lake

azure - 在 Azure 上的 HDInsights 群集上使用 Data Lake 或 Blob

在Azure中创建HDInsightsHadoop集群时，有两个存储选项。AzureDataLakeStore(ADLS)或AzureBlob存储。这两个选项之间的真正区别是什么？它们如何影响性能？我找到了这个页面https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是很具体，只使用了非常笼统的术语，比如“ADLSisoptimizedforanalytics”。这是否意味着它更适合存储HDInsights文件系统？如果ADLS确实更快

HDInsights azure noreferrer section microsoft hadoop azure-hdinsight azure-data-lake azure-blob-storage

csv - 在 Azure Blob 存储的多个 CSV blob 上创建 Hive 表

我有一个AzureBlob存储。在一个名为DATA的容器中，我有以下方式的CSVblob-现在我已经使用HDInsight创建了一个Hadoop集群。作为下一部分，我想创建用于查询的Hive表。我有一些具体问题。1)如何在单个查询中将所有BLOBS加载到Hive表？对于单个BLOB，我可以使用类似以下查询的内容。但是如何在单个查询中为多个Blob执行此操作？#Usetheexternaltableoption.$queryString="DROPTABLElog4jLogs;"+"CREATEEXTERNALTABLElog4jLogs(t1string,t2string,t3stri

Azure Blob 39 string tweets csv hadoop

azure - Hadoop on Azure 创建新集群

我可以通过界面创建一个新的Hadoop集群，但需要根据要求创建一个新的集群。有谁知道是否存在用于创建新集群的API？最佳答案还没有。截至目前(预览版)，您必须使用WindowsAzure管理门户界面在WindowsAzure订阅中创建Hadoop集群。由于大多数WindowsAzure管理功能在Powershell上可用，因此可以通过REST将此类功能内置到Powershell中，如所述here但是我不知道有什么近期计划。关于azure-HadooponAzure创建新集群，我们在

新集 Hadoop section Azure azure-hdinsight

azure - 启动 Hive Metastore 时无法创建 ServerSocket

在HDInsight集群(MicrosoftAzure的Hadoop发行版)上启动HiveMetastore时，出现此错误:org.apache.thrift.transport.TTransportException:CouldnotcreateServerSocketonaddress0.0.0.0/0.0.0.0:9083.atorg.apache.thrift.transport.TServerSocket.(TServerSocket.java:93)atorg.apache.thrift.transport.TServerSocket.(TServerSocket.java

ServerSocket Metastore java apache HiveMetaStore azure hadoop hive azure-hdinsight

106 107 108109110 111 112