azure-devops

azure - HDInsight 模拟器未在 Windows 上运行/连接异常

我正尝试按照以下说明在Windows8.1PC上设置HDInsight模拟器:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-emulator-get-started/尝试运行MapReduce作业时，出现连接错误。我该如何解决或进一步调查这个问题？详情如下。先决条件:为VS2015安装了AzurePowershell和AzureSDK安装了适用于Azure的HDInsight模拟器，包括。Hortonworks数据平台启动本地hdp服务(运行13个服务)将VisualStudio连接到

azure - hive :两点之间的距离

我需要编写配置单元查询，该查询将从包含经纬度列的表中提取并返回给定点x英里以内的结果。Hive是否为此需要工具包或插件？我正在使用在HDInsight上运行的Hadoop(3.2.7.844) 最佳答案抱歉，如果我正确理解您的用例，您也可以在查询中编写一个大的数学函数。在查询中编写数学函数会让人头疼，但从配置单元查询的角度来看，它应该是可行的。dlon=lon2-lon1dlat=lat2-lat1a=(sin(dlat/2))^2+cos(lat1)*cos(lat2)*(sin(dlon/2))^2c=2*atan2(sqrt

两点 azure section 编写数点 hadoop hive hiveql azure-hdinsight

azure - HDInsight : Selection method not accepting Storage account

在部署HDInsight群集时，在DataSource下，无论我选择哪种选择方法(“来自所有订阅”或“访问key”)，我都无法附加我的存储帐户。我在东南亚地区创建了一个新的存储帐户(它是与“存储”分开创建的)并希望使用它。这是我的做法:第一部分:选择方法:来自所有订阅-配置所需的设置(按照屏幕截图中的1、2和3)一切都很好。上面写着“正在获取访问key”。到目前为止，一切都很好。它还会选择默认容器。然后它抛出这个错误:第二部分:选择方法:访问键-我选择“访问key”，输入存储名称，它会选择默认容器......一切都很好。然后我从存储帐户粘贴访问key然后它抛出这个错误:存储帐户是Sta

HDInsight Selection image noreferrer noopener azure hadoop azure-blob-storage azure-hdinsight

azure - 如何访问 Microsoft Azure HDInsight 中的 blob 存储？

我刚刚创建了一个基于Spark的HDInsight集群。我在创建集群时选择了我之前创建的blob存储。但是，我不知道如何从在那里创建的VM中访问该blob存储。我已经阅读了许多不同的教程，但无法得到正确的答案。我可以看到默认容器的文件夹/文件对应于VM中的HDFS目录。是否可以将blob存储添加到默认容器中，以便我也可以像访问HDFS目录一样访问它？最佳答案您可以使用带有cmdlet的AzurePowerShell或AzureCLI访问blob。引用:AccessblobsinAzureHDInsight.如果您想使用带有GUI

Microsoft HDInsight section strong blob azure hadoop apache-spark azure-blob-storage azure-hdinsight

azure - 如何查询azure hdinsight hadoop cluster yarn timeline server

如何查询AzureHDInsightHadoop集群中的时间线服务器以获取作业指标？连接到Azure集群:curl-uadmin-sS-G"https://$CLUSTERNAME.azurehdinsight.net/api/v1/clusters/$CLUSTERNAME"连接到时间线服务器:GET/ws/v1/timeline/我需要一个连接这两个的查询来获取AzureHDInsightHadoop集群的作业指标。提前致谢。最佳答案查询Yarn时间线服务器:sshuser@clustername:~$curl-uadmin

azure hdinsight clustername strong section hadoop cluster-computing hadoop-yarn

azure - HDInsight 中的 Hive 在哪里

我已登录到HDInsight远程桌面计算机，并且我在Hadoop控制台上。但是，当我键入Hive时，尽管它适用于我的开发人员预览版，但我无法识别命令。我没有正确配置我的HDInsight集群吗？任何指针将不胜感激。最佳答案在Hadoop命令提示符下，键入以下命令:cd%hive_home%\bin建议使用WindowsAzurePowerShell或HDInsight.NETSDK提交配置单元作业。有关详细信息，请参阅http://www.windowsazure.com/en-us/manage/services/hdinsi

HDInsight azure section submit-hadoop-jobs-programmatical hadoop hive azure-hdinsight

azure - HDInsight 与 Azure 上的虚拟化 Hadoop 集群

我正在研究使用Hadoop集群的两种替代方案，第一种是使用HDInsight(使用Blob或HDFS存储)，第二种是在MicrosoftAzure上部署功能强大的WindowsServer并运行HDP(Hortonwork数据处理)在它上面(使用虚拟化)。第二种选择为我提供了更大的灵active，但我感兴趣的是调查每种选择的开销。对此有什么想法吗？特别是Blob存储对效率的影响如何？最佳答案这是一个相当宽泛的问题，因此“视情况而定”的答案在这里是合适的。当我与客户交谈时，这就是我看到他们做出权衡的方式。一方面是一系列控制，另一方

虚拟化 HDInsight section Hadoop azure azure-hdinsight

azure - 即使使用 hive.merge，Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件，这会减慢我的聚合查询速度。我在网上搜索，发现了一些关于这个案例的主题，比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置，每次插入都会在每个分区上创建一个新文件，并且文件不会合并。有

即使 active section measures hive azure hadoop azure-hdinsight

azure - 如何确定 hdfs(Azure blob 存储)上文件的文件编码？

我在具有混合文件编码的hdfs上有一堆100GB的文件(不幸的是在Azureblob存储中)。如何确定每个文件的文件编码？一些dfs命令行命令将是理想的。谢谢。最佳答案我最终通过将blob存储中的每个文件的开头传送到本地缓冲区，然后应用fileunix实用程序，获得了我需要的结果。以下是针对单个文件的命令:hdfsdfs-catwasb://container@account.blob.core.windows.net/path/to/file|head-n10>buffer;file-ibuffer这会让你得到类似的东西:bu

上文 azure section code blob hadoop hdfs azure-blob-storage file-encodings

azure - Azure Data Lake Analytics 数据库存储在哪里？

我通过AzureDataLakeToolsforVisualStudio运行的U-SQL脚本创建了一个包含一些表的数据库(请参见下面的屏幕截图)。该数据库是否存储在DataLakeStore中？Azure门户中显示的文件结构最佳答案除了阿米特的回答:存储在商店中的数据存储在默认ADLS帐户的\catalog文件夹中。它将按照与剩余数据相同的费率收费。存储在内部元数据服务中的数据成本被内化到ADLACOGS计算中。关于azure-AzureDataLakeAnalytics数据库存储

Analytics azure section stackoverflow 阿米特 hadoop azure-data-lake u-sql

134 135 136137138 139 140