草庐IT

azure - hive中如何向单个文件中插入数据

这项工作INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/'SELECT*fromtable1;但是当我们发出这样的命令时INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/sample.csv'SELECT*fromtable1;失败,异常无法重命名:wasb://incrementalhive-1@crmdbs.blob.core.windows.net/hive/scratch/hive_2015-06-08_10-01-03_930_4881174794406290153-1/-ext-10000到:wasb:/

在 hadoop 和 mapreduce 上运行 R 脚本

我有一个R脚本,可以处理一堆推文,我想对相同的数据使用相同的脚本,但保存在Hadoop文件系统中。根据thisHortonworks教程我可以使用R代码处理我的HDFS中的数据,但不是很清楚。我可以使用完全相同的R脚本,利用mapreduce范例,通过使用RevolutionR吗?我应该更改我的代码还是有办法执行针对Hadoop架构优化的相同功能?我的愿望是在像R-Studio这样的标准RIDE上编写我的代码,然后在我的云服务(例如MicrosoftAzure)上使用它,或者使用它的大部分,以mapreduce为基础。 最佳答案 是

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

csv - 配置单元查询 - 失败的 SemanticException 无效路径

这是我的问题:我刚刚将最初的Azure订阅转换为现收现付订阅(最初是30天试用期),因为当我用完第一组免费积分时它被关闭了。现在一切都再次正常工作-我仍然有相同的旧资源组,我在其下建立了一个新集群。带有我的CSV数据的文件仍然存在于我上次创建的容器中(不是默认容器,而是之前建立的容器)。我唯一需要重新创建的是将数据加载到其中所需的Hive表。我也能再次建立那张table。但是,当我随后尝试运行Hive查询以实际将数据从CSV文件加载到Hive表时,如下所示...LOADDATAINPATH'/container1/HdiSamples/user/data-file.csv'OVERWR

azure - 我可以将 Avro 序列化数据附加到现有的 Azure blob 吗?

我在问我是否可以,但我也想知道我是否应该。这是我的场景:我正在小批量接收Avro序列化消息。我想存储它们以供以后使用带有AvroSerDe的Hive表进行分析。我在Azure中运行,并将消息存储在blob中。我试图避免有很多小Blob(因为我相信这会对Hive产生负面影响)。如果我已经将Avroheader写入blob,我相信可以使用CloudBlockBlob.PutBlockAsync()附加Avro数据block。(只要我知道同步标记。)但是,我检查了两个.NET库,它们似乎不支持我的方法。(我必须一次写入整个Avro容器文件)。http://www.nuget.org/pack

azure - 在 Azure SQL 数据仓库中使用 Polybase 技术,我可以查询以 parquet Hadoop 格式存储的数据吗?

借助AzureSQL数据仓库中的Polybase技术,我是否可以查询以parquetHadoop格式存储的数据?感谢您的帮助。 最佳答案 目前,PolyBase不支持ApacheParquet。它在PolyBase内实现的路线图上,因为它允许用户利用Hadoop中类似于SQLDW中的柱状数据结构。感谢John提出的问题-我会将其添加到我们正在跟踪的功能请求中。更新:读写Parquet文件是nowsupported. 关于azure-在AzureSQL数据仓库中使用Polybase技术,我

azure - 如何保护 Azure Key Vault 中的 blob 存储访问 key

我们希望在key保管库中保护AzureBlob存储访问key。哪个版本https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure支持这种功能,因为当前的支持并不那么安全。http://hadoop.apache.org/docs/stable/hadoop-azure/index.html使用AzureBlob存储需要配置凭据。通常这是在core-site.xml中设置的。配置属性名称的格式为fs.azure.account.key..blob.core.windows.net,值为访问key。访问key是保护对存

azure - 使用 IaaS 的 Azure 上的 Hadoop

我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大,我正在考虑将数据存储在二级存储中,例如AzureDataLakeStore和Hadoop集群存储将充当主存储。我想知道如何配置,以便在创建Hive表和分区时,部分数据可以驻留在主存储中,其余数据驻留在辅助存储中?谢谢问候,马杜 最佳答案 默认情况下,您不能将文件系统与Hive表混合使用。Hive元存储仅包含一个用于数据库/表定义的文件系统位置。您可以尝试使用WaggleDance设置一个联合Hive解决方案,但这可能比简单地允许Hive数据存在

azure - 使用 Azure Blob 存储时的 HDInsight 群集大小

当使用HDInsight并选择AzureStorageBlob来存储需要计算的数据时,您仍然需要在配置新集群时选择数据节点的数量。如果您的数据存储在Azure存储Blob上,数据节点的数量有什么影响?blob中的数据是否实际复制到数据节点上? 最佳答案 如果您将数据放在AzureBlobStore上,它会保留在那里,并直接从Azure存储中读取。HDInsight集群中的数据节点有两个用途。首先,他们运行实际的计算作业,这些作业直接从Azure存储中读取。这并不像HDFS用户听起来那么疯狂,因为Azure的一致底层结构使存储保持良好

azure - HDFS ls 在 Flume 写入文件时显示文件大小为 0

我们目前正在设置一个ApacheFlume系统,该系统收集事件数据并将其写入我们的HDInsightHDFS集群中的文件。在验证初始设置时,hdfsls在Flume写入文件时显示文件大小为0,但是当文件滚动(并且删除了.tmp文件扩展名)时,文件大小突然跳起来。在Flume写入文件时,HDFS或HDInsight(或WASB)是否有某种原因导致文件的文件大小为0。 最佳答案 这可能是由于HDFS一致性模型。在向HDFS执行写入时,一旦写入了超过一个block的数据,第一个block将对新读者。后续block也是如此:它始终是当前bl