azure-databricks

azure - 将 Azure blob 与 Hadoop 结合使用时配置 defaultFS

我们正在尝试将azureblob存储与Hadoop结合使用。问题是我们必须在core-site.xml中设置fs.defaultFS属性，但在我们的例子中，我们收到了一个错误。文件和错误都在下面给出:fs.AbstractFileSystem.wasb.implorg.apache.hadoop.fs.azure.Wasbfs.azure.account.key.OUR_STORAGE_ACCOUNT.blob.core.windows.net"OUR_KEY"fs.defaultFSwasb://blob-hdfs@OUR_STORAGE_ACCOUNT.blob.core.wind

用时 defaultFS code section azure hadoop hdfs azure-blob-storage

c# - Hadoop on Azure 示例生成空白文件

AzureC#流式处理示例教程中的Hadoop我正在尝试这个。我在我的帐户上安装了示例代码，然后当我尝试执行输出后的作业时，我得到并在一天结束时生成了一个空白文件。有时甚至没有生成。以下是我在屏幕上看到的内容:有没有人遇到过这种类型的问题？最佳答案我的集群是在11月29日创建的。Microsoft在THISLINK上发布了与hadoop相关的BUG所以我确实重新创建了我的集群，然后我的问题就解决了。即使是SAMPLES中给出的基本示例，当天也不起作用。所以现在一切都很好..非常感谢。

c#Hadoop section stackoverflow image azure hadoop-streaming

c# - 在 MapReduce 中使用 Windows Azure 存储执行 Reduce 函数后无法看到最终结果

我正在使用c#.net编写map和reduce函数。我基本上遵循给出的示例here最终命令Hadoopjarhadoop-streaming.jar-files"hdfs:///example/apps/map.exe,hdfs:///example/apps/reduce.exe"-input"/example/apps/data.csv"-output"/example/apps/output.txt"-mapper"map.exe"-reducer"reduce.exe"作业成功运行现在从交互式JS模式，如果我写js>#cat/example/apps/output.txtcat

c#MapReduce code example output hadoop azure-storage hadoop-streaming

azure - 无法将 Azure Blob 文件加载到 HDINSIGHT 中的 Hive 表中

我是Hadoop新手，我陷入了一个基本问题，即只将单个blob文件数据加载到配置单元表中。我正在根据文件名emp.dat创建表。CREATEEXTERNALTABLEEmployee(IDint,managerstring,Codeint,Namestring,Yearint,Monthint,Salaryint,Ageint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'wasb://practice@XXXblobstore.blob.core.windows.net/emp.dat/'当我执行上面

HDINSIGHT azure section code XXXblobstore hadoop hive hiveql azure-hdinsight

azure - Hbase扫描命令到windows中的文本文件

是否可以捕获hbase命令“扫描表”到文本文件。命令是这样的:hbase(main):001:0>scansampletable我尝试使用命令提示符命令hbase(main):001:0>scansampletable>textfile.txt但给出错误“参数数量错误”我也尝试了以下命令:hbase(main):001:0>echo"scan'sampletable'"|hbaseshell|grep"^">registration.txt但是命令中出现异常“无法识别的字符^” 最佳答案您不能在hbaseshell中执行linux

本文 windows section hbase code azure hadoop azure-hdinsight

azure - 需要多少个 Hive 动态分区？

我正在运行一项大型工作，将两年内不定期的大约55个样本流(标签)(每条记录一个样本)合并为15分钟的平均值。原始数据集中的23k条流中大约有11亿条记录，这55条流约占这些记录的3300万条。我计算了一个15分钟的索引并按它分组以获得平均值，但是尽管将它提高到20k，我似乎已经超过了我的配置单元作业的最大动态分区。我想我可以进一步增加它，但它已经需要一段时间才能失败(大约6小时，虽然我通过减少要考虑的流的数量将它减少到2)，而且我实际上不知道如何计算我真正有多少需要。代码如下:SEThive.exec.dynamic.partition=true;SEThive.exec.dynami

azure Hive apache hadoop azure-hdinsight

azure - HDInsight 模拟器未在 Windows 上运行/连接异常

我正尝试按照以下说明在Windows8.1PC上设置HDInsight模拟器:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-emulator-get-started/尝试运行MapReduce作业时，出现连接错误。我该如何解决或进一步调查这个问题？详情如下。先决条件:为VS2015安装了AzurePowershell和AzureSDK安装了适用于Azure的HDInsight模拟器，包括。Hortonworks数据平台启动本地hdp服务(运行13个服务)将VisualStudio连接到

HDInsight Windows section code li azure hadoop azure-hdinsight

azure - hive :两点之间的距离

我需要编写配置单元查询，该查询将从包含经纬度列的表中提取并返回给定点x英里以内的结果。Hive是否为此需要工具包或插件？我正在使用在HDInsight上运行的Hadoop(3.2.7.844) 最佳答案抱歉，如果我正确理解您的用例，您也可以在查询中编写一个大的数学函数。在查询中编写数学函数会让人头疼，但从配置单元查询的角度来看，它应该是可行的。dlon=lon2-lon1dlat=lat2-lat1a=(sin(dlat/2))^2+cos(lat1)*cos(lat2)*(sin(dlon/2))^2c=2*atan2(sqrt

两点 azure section 编写数点 hadoop hive hiveql azure-hdinsight

azure - HDInsight : Selection method not accepting Storage account

在部署HDInsight群集时，在DataSource下，无论我选择哪种选择方法(“来自所有订阅”或“访问key”)，我都无法附加我的存储帐户。我在东南亚地区创建了一个新的存储帐户(它是与“存储”分开创建的)并希望使用它。这是我的做法:第一部分:选择方法:来自所有订阅-配置所需的设置(按照屏幕截图中的1、2和3)一切都很好。上面写着“正在获取访问key”。到目前为止，一切都很好。它还会选择默认容器。然后它抛出这个错误:第二部分:选择方法:访问键-我选择“访问key”，输入存储名称，它会选择默认容器......一切都很好。然后我从存储帐户粘贴访问key然后它抛出这个错误:存储帐户是Sta

HDInsight Selection image noreferrer noopener azure hadoop azure-blob-storage azure-hdinsight

azure - 如何访问 Microsoft Azure HDInsight 中的 blob 存储？

我刚刚创建了一个基于Spark的HDInsight集群。我在创建集群时选择了我之前创建的blob存储。但是，我不知道如何从在那里创建的VM中访问该blob存储。我已经阅读了许多不同的教程，但无法得到正确的答案。我可以看到默认容器的文件夹/文件对应于VM中的HDFS目录。是否可以将blob存储添加到默认容器中，以便我也可以像访问HDFS目录一样访问它？最佳答案您可以使用带有cmdlet的AzurePowerShell或AzureCLI访问blob。引用:AccessblobsinAzureHDInsight.如果您想使用带有GUI

Microsoft HDInsight section strong blob azure hadoop apache-spark azure-blob-storage azure-hdinsight

104 105 106107108 109 110