草庐IT

azure-devops

全部标签

azure - HDInsight 模拟器未在 Windows 上运行/连接异常

我正尝试按照以下说明在Windows8.1PC上设置HDInsight模拟器:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-emulator-get-started/尝试运行MapReduce作业时,出现连接错误。我该如何解决或进一步调查这个问题?详情如下。先决条件:为VS2015安装了AzurePowershell和AzureSDK安装了适用于Azure的HDInsight模拟器,包括。Hortonworks数据平台启动本地hdp服务(运行13个服务)将VisualStudio连接到

azure - hive :两点之间的距离

我需要编写配置单元查询,该查询将从包含经纬度列的表中提取并返回给定点x英里以内的结果。Hive是否为此需要工具包或插件?我正在使用在HDInsight上运行的Hadoop(3.2.7.844) 最佳答案 抱歉,如果我正确理解您的用例,您也可以在查询中编写一个大的数学函数。在查询中编写数学函数会让人头疼,但从配置单元查询的角度来看,它应该是可行的。dlon=lon2-lon1dlat=lat2-lat1a=(sin(dlat/2))^2+cos(lat1)*cos(lat2)*(sin(dlon/2))^2c=2*atan2(sqrt

azure - HDInsight : Selection method not accepting Storage account

在部署HDInsight群集时,在DataSource下,无论我选择哪种选择方法(“来自所有订阅”或“访问key”),我都无法附加我的存储帐户。我在东南亚地区创建了一个新的存储帐户(它是与“存储”分开创建的)并希望使用它。这是我的做法:第一部分:选择方法:来自所有订阅-配置所需的设置(按照屏幕截图中的1、2和3)一切都很好。上面写着“正在获取访问key”。到目前为止,一切都很好。它还会选择默认容器。然后它抛出这个错误:第二部分:选择方法:访问键-我选择“访问key”,输入存储名称,它会选择默认容器......一切都很好。然后我从存储帐户粘贴访问key然后它抛出这个错误:存储帐户是Sta

azure - 如何访问 Microsoft Azure HDInsight 中的 blob 存储?

我刚刚创建了一个基于Spark的HDInsight集群。我在创建集群时选择了我之前创建的blob存储。但是,我不知道如何从在那里创建的VM中访问该blob存储。我已经阅读了许多不同的教程,但无法得到正确的答案。我可以看到默认容器的文件夹/文件对应于VM中的HDFS目录。是否可以将blob存储添加到默认容器中,以便我也可以像访问HDFS目录一样访问它? 最佳答案 您可以使用带有cmdlet的AzurePowerShell或AzureCLI访问blob。引用:AccessblobsinAzureHDInsight.如果您想使用带有GUI

azure - 如何查询azure hdinsight hadoop cluster yarn timeline server

如何查询AzureHDInsightHadoop集群中的时间线服务器以获取作业指标?连接到Azure集群:curl-uadmin-sS-G"https://$CLUSTERNAME.azurehdinsight.net/api/v1/clusters/$CLUSTERNAME"连接到时间线服务器:GET/ws/v1/timeline/我需要一个连接这两个的查询来获取AzureHDInsightHadoop集群的作业指标。提前致谢。 最佳答案 查询Yarn时间线服务器:sshuser@clustername:~$curl-uadmin

azure - HDInsight 中的 Hive 在哪里

我已登录到HDInsight远程桌面计算机,并且我在Hadoop控制台上。但是,当我键入Hive时,尽管它适用于我的开发人员预览版,但我无法识别命令。我没有正确配置我的HDInsight集群吗?任何指针将不胜感激。 最佳答案 在Hadoop命令提示符下,键入以下命令:cd%hive_home%\bin建议使用WindowsAzurePowerShell或HDInsight.NETSDK提交配置单元作业。有关详细信息,请参阅http://www.windowsazure.com/en-us/manage/services/hdinsi

azure - HDInsight 与 Azure 上的虚拟化 Hadoop 集群

我正在研究使用Hadoop集群的两种替代方案,第一种是使用HDInsight(使用Blob或HDFS存储),第二种是在MicrosoftAzure上部署功能强大的WindowsServer并运行HDP(Hortonwork数据处理)在它上面(使用虚拟化)。第二种选择为我提供了更大的灵active,但我感兴趣的是调查每种选择的开销。对此有什么想法吗?特别是Blob存储对效率的影响如何? 最佳答案 这是一个相当宽泛的问题,因此“视情况而定”的答案在这里是合适的。当我与客户交谈时,这就是我看到他们做出权衡的方式。一方面是一系列控制,另一方

azure - 即使使用 hive.merge,Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件,这会减慢我的聚合查询速度。我在网上搜索,发现了一些关于这个案例的主题,比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置,每次插入都会在每个分区上创建一个新文件,并且文件不会合并。有

azure - 如何确定 hdfs(Azure blob 存储)上文件的文件编码?

我在具有混合文件编码的hdfs上有一堆100GB的文件(不幸的是在Azureblob存储中)。如何确定每个文件的文件编码?一些dfs命令行命令将是理想的。谢谢。 最佳答案 我最终通过将blob存储中的每个文件的开头传送到本地缓冲区,然后应用fileunix实用程序,获得了我需要的结果。以下是针对单个文件的命令:hdfsdfs-catwasb://container@account.blob.core.windows.net/path/to/file|head-n10>buffer;file-ibuffer这会让你得到类似的东西:bu

azure - Azure Data Lake Analytics 数据库存储在哪里?

我通过AzureDataLakeToolsforVisualStudio运行的U-SQL脚本创建了一个包含一些表的数据库(请参见下面的屏幕截图)。该数据库是否存储在DataLakeStore中?Azure门户中显示的文件结构 最佳答案 除了阿米特的回答:存储在商店中的数据存储在默认ADLS帐户的\catalog文件夹中。它将按照与剩余数据相同的费率收费。存储在内部元数据服务中的数据成本被内化到ADLACOGS计算中。 关于azure-AzureDataLakeAnalytics数据库存储