azure-databricks

azure - Azure Data Lake 中压缩编解码器的影响

很明显，有据可查的是，拆分zip文件的能力对Hadoop中作业的性能和并行化有很大影响。但是Azure是建立在Hadoop之上的，而且我在Microsoft文档中找不到的任何地方都没有提到这种影响。这不是ADL的问题吗？例如，GZip大文件现在是一种可接受的方法，还是我会遇到同样的问题，即由于压缩编解码器的选择而无法并行处理我的作业？谢谢最佳答案请注意，AzureDataLakeAnalytics不基于Hadoop。RojoSam是正确的，GZip是一种不好的并行化压缩格式。U-SQL会自动识别.gz文件并解压缩它们。但是，压缩

缩编中压 section strong 的 azure hadoop azure-data-lake

linux - 是否可以将 Azure datalake 作为驱动器安装在 linux 服务器上？

我们的最终目标是让我们的LinuxVM服务器将AzureDatalake作为挂载文件系统直接访问。Microsoft声明AzureDatalake与hdfs兼容，因此我们想知道是否可以通过Fuse之类的东西直接挂载或通过Hadoop系统间接挂载？Azure中的任何可用内容。拼命地从做过这件事的人那里寻找例子。最佳答案 goofys支持挂载azuredatalake:https://github.com/kahing/goofys/blob/master/README-azure.md#azure-blob-storage

linux datalake section azure https hadoop azure-data-lake

azure - 将 HDInsight 集群升级/迁移到最新版本

我确定这已发布在某处或已经传达，但我似乎找不到任何关于从一个版本升级/迁移HDInsight集群到下一个版本的信息。一点背景。自2014年1月24日以来，我们一直在使用Hive和HDInsight来存储我们所有的IIS日志。我们喜欢它，它为我们的团队提供了很好的洞察力。我最近在评论http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/并注意到我们的HDInsight版本(2.1.3.0.432823)不再受支持，并将于5月弃用。这让我开始思考如何进入3.2版。我似乎无

HDInsight azure section noreferrer hadoop azure-hdinsight

azure - Hadoop 与 MSSQL 报告的可能性

我一直在azureHDInsight上评估Hadoop，以便为我们的报告应用程序找到大数据解决方案。此技术评估的关键部分是我需要与MSSQLReportingServices集成，因为这是我们的应用程序已经使用的。我们的开发人员资源非常短缺，所以我越能将其纳入工程实践中越好。到目前为止我尝试了什么使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在AzureHDInsight远程桌面上本地使用SPARKQL我发现HBASE和Hive在我们的报告中使用起来要慢得多。对于测试数据，我使用了一个60k行的表，

Hadoop azure section HDInsight hive hbase azure-hdinsight

azure - 如何从 Hadoop 中的 Azure Blob 存储读取数据？

我有一个map-reduce作业，reducer获取驻留在AzureBlob存储上的文件的绝对地址，reducer应该打开它并读取其内容。我在配置Hadoop集群(HDInsight)时添加了包含文件的存储帐户。因此，reducer必须有权访问此Blob存储，但因为Blob存储不是我工作的默认HDFS存储。我的reducer中有以下代码，但它给了我一个FileNotFound错误消息。FileSystemfs=FileSystem.get(newConfiguration());Pathpt=newPath("wasb://mycontainer@accountname...");FS

Hadoop azure section reducer mycontainer azure-storage azure-hdinsight

azure - 如何从 C# 中自动化 Azure Spark？

我可以创建集群，但我该如何自动执行脚本？varclusterInfo=newClusterCreateParametersV2{Name=clusterConfig.ClusterName,...ClusterType=ClusterType.Spark};`cluster.RunScript()?我可以获得SparkContext吗？https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-bi-tools/ 最佳答案今

C#azure section documentation https hadoop apache-spark azure-hdinsight

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱，并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后，运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

中创 riskfactor apache hadoop java azure apache-pig hdfs hortonworks-data-platform

azure - 将日期转换为星期日期名称和一天的一部分

那么我如何使用以下输入从pig那里得到这个输出。我应该使用哪些命令输入:10/3/2013120010/4/20130000预期输出:MondayMorningTuesdayEvening 最佳答案将字段拆分为2个字段，然后使用ToDate获取当天的名称。对于晚上和早上，您可以检查值并分配。假设您与1个字段有关系B=FOREACHAGENERATESTRSPLIT((chararray)A.$0,'',2);C=FOREACHBGENERATEToString(ToDate(B.$0,'MM/dd/yyyy'),'E'),(CAS

azure 日期 section 39 code hadoop apache-pig

azure - 如何为 Premium HDInsight 创建反向 DNS 查找区域？

我已经在Azure中创建了一个DNS区域。例如，对于IP范围192.0.2.128/26，我创建了128-26.2.0.192.in-addr.arpa。现在我应该如何为要创建的Hdinsight虚拟机创建PTR记录？最佳答案当为具有192.0.2.128/26前缀中的IP的主机创建反向区域以托管记录时，区域名称将通过隔离地址的网络前缀(192.0.2)然后反转顺序来创建(2.0.192)并添加后缀.in-addr.arpa。关于azure-如何为PremiumHDInsight创

反向何为 section strong azure hadoop azure-hdinsight reverse-dns apache-ranger

Azure 上的 Node.js 和 HBase (HDInsight)

我正在尝试从Node.js访问MicrosoftAzure上的HBase。我查看了不同的库，例如hbase和RESTAPI(webhcat)。我想要实现的是创建一个表并从Node.js上传数据。稍后我想对该数据集进行查询。不幸的是，Azure的文档在这方面没有太大帮助，因为它侧重于PowerShell和.NETSDK。我发现的一篇非常有用的文章是:http://blogs.msdn.com/b/bigdatasupport/archive/2014/04/22/querying-hdinsight-job-status-with-webhcat-via-native-powershel

HDInsight Azure section https noreferrer node.js hadoop hbase azure-hdinsight

38 39 404142 43 44