azure-databricks

azure - 如何查询azure hdinsight hadoop cluster yarn timeline server

如何查询AzureHDInsightHadoop集群中的时间线服务器以获取作业指标？连接到Azure集群:curl-uadmin-sS-G"https://$CLUSTERNAME.azurehdinsight.net/api/v1/clusters/$CLUSTERNAME"连接到时间线服务器:GET/ws/v1/timeline/我需要一个连接这两个的查询来获取AzureHDInsightHadoop集群的作业指标。提前致谢。最佳答案查询Yarn时间线服务器:sshuser@clustername:~$curl-uadmin

azure - HDInsight 中的 Hive 在哪里

我已登录到HDInsight远程桌面计算机，并且我在Hadoop控制台上。但是，当我键入Hive时，尽管它适用于我的开发人员预览版，但我无法识别命令。我没有正确配置我的HDInsight集群吗？任何指针将不胜感激。最佳答案在Hadoop命令提示符下，键入以下命令:cd%hive_home%\bin建议使用WindowsAzurePowerShell或HDInsight.NETSDK提交配置单元作业。有关详细信息，请参阅http://www.windowsazure.com/en-us/manage/services/hdinsi

HDInsight azure section submit-hadoop-jobs-programmatical hadoop hive azure-hdinsight

azure - HDInsight 与 Azure 上的虚拟化 Hadoop 集群

我正在研究使用Hadoop集群的两种替代方案，第一种是使用HDInsight(使用Blob或HDFS存储)，第二种是在MicrosoftAzure上部署功能强大的WindowsServer并运行HDP(Hortonwork数据处理)在它上面(使用虚拟化)。第二种选择为我提供了更大的灵active，但我感兴趣的是调查每种选择的开销。对此有什么想法吗？特别是Blob存储对效率的影响如何？最佳答案这是一个相当宽泛的问题，因此“视情况而定”的答案在这里是合适的。当我与客户交谈时，这就是我看到他们做出权衡的方式。一方面是一系列控制，另一方

虚拟化 HDInsight section Hadoop azure azure-hdinsight

azure - 即使使用 hive.merge，Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件，这会减慢我的聚合查询速度。我在网上搜索，发现了一些关于这个案例的主题，比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置，每次插入都会在每个分区上创建一个新文件，并且文件不会合并。有

即使 active section measures hive azure hadoop azure-hdinsight

azure - 如何确定 hdfs(Azure blob 存储)上文件的文件编码？

我在具有混合文件编码的hdfs上有一堆100GB的文件(不幸的是在Azureblob存储中)。如何确定每个文件的文件编码？一些dfs命令行命令将是理想的。谢谢。最佳答案我最终通过将blob存储中的每个文件的开头传送到本地缓冲区，然后应用fileunix实用程序，获得了我需要的结果。以下是针对单个文件的命令:hdfsdfs-catwasb://container@account.blob.core.windows.net/path/to/file|head-n10>buffer;file-ibuffer这会让你得到类似的东西:bu

上文 azure section code blob hadoop hdfs azure-blob-storage file-encodings

azure - Azure Data Lake Analytics 数据库存储在哪里？

我通过AzureDataLakeToolsforVisualStudio运行的U-SQL脚本创建了一个包含一些表的数据库(请参见下面的屏幕截图)。该数据库是否存储在DataLakeStore中？Azure门户中显示的文件结构最佳答案除了阿米特的回答:存储在商店中的数据存储在默认ADLS帐户的\catalog文件夹中。它将按照与剩余数据相同的费率收费。存储在内部元数据服务中的数据成本被内化到ADLACOGS计算中。关于azure-AzureDataLakeAnalytics数据库存储

Analytics azure section stackoverflow 阿米特 hadoop azure-data-lake u-sql

azure - 在 Azure SQL 数据仓库中使用 Polybase 访问 Hadoop (Azure IaaS) HDFS 文件

我正在尝试使用AzureSQLDW中的Polybase访问ClouderaCluster(在Azure中作为IaaS提供)中HDFS中的分隔文件，但是我遇到了以下错误:Msg105019,Level16,State1,Line40EXTERNALTABLEaccessfailedduetointernalerror:'JavaexceptionraisedoncalltoHdfsBridge_IsDirExist.Javaexceptionmessage:CallFromDB55/10.0.0.59to10...:8020failedonsockettimeoutexception:o

Azure Polybase section blockquote hadoop hdfs azure-sqldw

SQL 2016 PolyBase 计算下推到使用 WASBS aka Azure Blob 的 Hadoop HDI

我们有一个AzureHadoopHDI系统，其中大部分文件存储在Azure存储帐户Blob中。从Hadoop访问文件需要WASBS://文件系统类型。我想配置SQL2016Polybase以针对存储在Azureblob中的某些数据查询将计算下推到HDI集群。可以在Polybase中的Hadoop之外使用AzureBlob。我完全理解查询提示“option(FORCEEXTERNALPUSHDOWN)”在Blob系统上不起作用。是否可以配置外部数据源以使用HDI在blob上进行计算？典型的外部数据源配置是:CREATEEXTERNALDATASOURCEAzureStoragewith(

PolyBase Hadoop HdiSamples section user-ratings sql azure

azure - NativeAzureFileSystem 无法识别其他容器

我的目标是从HDInsight实例的spark-shell访问位于创建集群的存储帐户内的容器中的blob。这些是我采取的步骤:在容器上创建了一个HDInsight集群https://mystorage.blob.core.windows.net:443/主容器。在同一存储帐户上创建了另一个容器:https://mystorage.blob.core.windows.net:443/外容器。在extracontainer中创建了一个名为person.json的文件:https://mystorage.blob.core.windows.net:443/extracontainer/dat

NativeAzureFileSystem 容器 code mystorage windows azure hadoop apache-spark azure-hdinsight

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储，数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本，我正在尝试在ADF中添加/创建一个hive/Pig事件，从pig/hive的代码我正在调用一个shell脚本；作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时，我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径；有没有人遇到过类似的问题，或者有没有人部署了p

shell azure section code hadoop azure-hdinsight azure-data-factory