草庐IT

azure-repos

全部标签

python - 可以在 Azure HDInsight 中使用 Hadoop Streaming API 运行 python 代码吗?

我看到您可以运行C#代码(http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-develop-deploy-streaming-jobs/。)并且可能是任何其他编译语言,因为该示例使用.exe文件。你能用python代码做同样的事情吗? 最佳答案 我在HDInsight上运行Pythonmapreduce时运气不佳。虽然Python存在于Windows集群上,但我在尝试将其用于流式mapreduce时收到管道错误。但是,今天宣布了Linux

azure - HDinsight 配置单元输出到 blob

我在HDinsight上使用Hive,我想将作业的输出存储在Azure存储(blob)中。我试过了INSERTOVERWRITEDIRECTORY'wasb://mycontainer@myaccount.blob.core.windows.net/'SELECTname,COUNT(*)ascountFROMtestGROUPBYnameORDERBYcountDESC但这返回错误“错误:java.lang.RuntimeException:配置对象时出错”。你能帮我把作业的输出重定向到Azureblob存储吗? 最佳答案 要指向

Git与Repo:开源开发的得力工具组合

Git与Repo:开源开发的得力工具组合1.引言开源开发在当今的软件行业中扮演着至关重要的角色。它不仅推动了技术的创新和进步,也促进了开发者之间的合作与共享。随着越来越多的开源项目的涌现,有效的代码管理和版本控制成为了必不可少的工作流程。在这方面,Git和Repo作为一对得力的工具组合,为开源开发者提供了强大的支持。Git是一个分布式版本控制系统,它通过记录文件的变化历史来跟踪和管理代码。相较于传统的集中式版本控制系统,Git具有更好的分支管理、快速提交和灵活性的优势。它的开源性、稳定性和广泛应用使其成为了开源开发中事实上的标准。Repo是一个多项目管理工具,它基于Git构建而成。在一个大型开

azure - 尼菲 java.lang.NoSuchMethodError : org. apache.hadoop.conf.Configuration.reloadExistingConfigurations

我正在点击此链接以设置NifiputHDFS以写入AzureDataLake。ConnectingtoAzureDataLakefromaNiFidataflowNifi在HDF3.1VM中,Nifi版本为1.5。我们从一个HDInsight(v3.6,whichsupportshadoop2.7)headnode得到了上面链接中提到的jar文件,这些jar文件是:adls2-oauth2-token-provider-1.0.jarazure-data-lake-store-sdk-2.1.4.jarhadoop-azure-datalake.jarjackson-core-2.2.

azure - 如何通过门户管理 HDInsight 集群?

我最近开始使用WindowsAzure和HDInsight,以完成一些MapReduce工作。我想知道的是,是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群?我尝试了停止或暂停的选项,但找不到任何选项。任何帮助,将不胜感激。 最佳答案 HDInsight不支持除Running和Stopped之外的其他状态,这意味着无法将集群设置为暂停或Idle状态,这与其他云提供商不同。您可以找到添加此功能的请求here,如果你感兴趣。回答您的其他问题,通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

azure - 从 Azure SQL 数据仓库查询 Hadoop ORC 表

我在从AzureSQL数据仓库读取在AzureHDInsight中创建的ORC表时遇到问题。请参阅下面的顺序来设置HDInsight实例以及AzureSQL数据仓库。我创建了一个文本文件(Sales.txt),内容如下20150614|1|10.5020150618|1|100.7520150924|1|89.7520160214|2|10456.9020150922|3|34.7020151021|3|43.7020151225|3|65.9020151231|3|87.5020160101|4|1349.4020160512|4|3982.4020150608|5|398.9020

azure - Azure Data Lake 中压缩编解码器的影响

很明显,有据可查的是,拆分zip文件的能力对Hadoop中作业的性能和并行化有很大影响。但是Azure是建立在Hadoop之上的,而且我在Microsoft文档中找不到的任何地方都没有提到这种影响。这不是ADL的问题吗?例如,GZip大文件现在是一种可接受的方法,还是我会遇到同样的问题,即由于压缩编解码器的选择而无法并行处理我的作业?谢谢 最佳答案 请注意,AzureDataLakeAnalytics不基于Hadoop。RojoSam是正确的,GZip是一种不好的并行化压缩格式。U-SQL会自动识别.gz文件并解压缩它们。但是,压缩

linux - 是否可以将 Azure datalake 作为驱动器安装在 linux 服务器上?

我们的最终目标是让我们的LinuxVM服务器将AzureDatalake作为挂载文件系统直接访问。Microsoft声明AzureDatalake与hdfs兼容,因此我们想知道是否可以通过Fuse之类的东西直接挂载或通过Hadoop系统间接挂载?Azure中的任何可用内容。拼命地从做过这件事的人那里寻找例子。 最佳答案 goofys支持挂载azuredatalake:https://github.com/kahing/goofys/blob/master/README-azure.md#azure-blob-storage

azure - 将 HDInsight 集群升级/迁移到最新版本

我确定这已发布在某处或已经传达,但我似乎找不到任何关于从一个版本升级/迁移HDInsight集群到下一个版本的信息。一点背景。自2014年1月24日以来,我们一直在使用Hive和HDInsight来存储我们所有的IIS日志。我们喜欢它,它为我们的团队提供了很好的洞察力。我最近在评论http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/并注意到我们的HDInsight版本(2.1.3.0.432823)不再受支持,并将于5月弃用。这让我开始思考如何进入3.2版。我似乎无

azure - Hadoop 与 MSSQL 报告的可能性

我一直在azureHDInsight上评估Hadoop,以便为我们的报告应用程序找到大数据解决方案。此技术评估的关键部分是我需要与MSSQLReportingServices集成,因为这是我们的应用程序已经使用的。我们的开发人员资源非常短缺,所以我越能将其纳入工程实践中越好。到目前为止我尝试了什么使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在AzureHDInsight远程桌面上本地使用SPARKQL我发现HBASE和Hive在我们的报告中使用起来要慢得多。对于测试数据,我使用了一个60k行的表,