草庐IT

azure-blob-storage

全部标签

java - 如何在 Flink 中为 Google Cloud Storage 创建 RecoverableWriter

我想使用GoogleCloudStorage使用StreamingFileSink从我的流作业写入(sink)DataStream元素.为此,我使用了GoogleCloudStorageconnector用于Hadoop作为org.apache.hadoop.fs.FileSystem的实现,并使用HadoopFileSystemasanimplementationoforg.apache.flink.core.fs.FileSystem为Flink包装了hadoopFileSystem类。我在我的gradle文件中包含了以下依赖项:编译("com.google.cloud.bigda

hadoop - 如何配置和重新启动在 Azure 上运行的 HDInsight 群集?

具体来说,我想更改在MicrosoftAzure上运行的HDInsight集群中每个节点的最大映射器数量和最大缩减器数量。我使用远程桌面登录到头节点。我编辑了头节点上的mapred-site.xml文件并更改了mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum值。我尝试重新启动头节点,但无法重新启动。我使用start-onebox.cmd和stop-onebox.cmd脚本来尝试启动/停止HDInsight。然后我运行了一个流式mapreduce,将所需数量的reducer传递给had

azure - 在 HDInsight 上使用 HQL 文件时出现 ParseExceptions

我正在学习本教程http://azure.microsoft.com/en-us/documentation/articles/hdinsight-use-hive/但是在将查询源更改为使用文件时卡住了。使用New-AzureHDInsightHiveJobDefinition-Query$queryString时一切正常但是当我尝试New-AzureHDInsightHiveJobDefinition-File"/example.hql"与example.hql存储在blob容器的“根”中,我得到ExitCode40000和标准错误中的以下内容:Logginginitializedu

Azure HDInsight : what is head node in a hadoop cluster?

我刚刚在HDInsight中设置了一个Hadoop集群并尝试开始使用Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到hadoop集群。这让我很困惑。我有以下问题:当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到hadoop吗?第一个复制操作与第二个复制操作有何不同?什么是Hadoop中的头节点? 最佳答案 HDInsight集群中的头节点是运行构成Hadoop平台的一些服务的机器,包括名称节点和作业跟踪器。从广

azure - hive中如何向单个文件中插入数据

这项工作INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/'SELECT*fromtable1;但是当我们发出这样的命令时INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/sample.csv'SELECT*fromtable1;失败,异常无法重命名:wasb://incrementalhive-1@crmdbs.blob.core.windows.net/hive/scratch/hive_2015-06-08_10-01-03_930_4881174794406290153-1/-ext-10000到:wasb:/

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

azure - 我可以将 Avro 序列化数据附加到现有的 Azure blob 吗?

我在问我是否可以,但我也想知道我是否应该。这是我的场景:我正在小批量接收Avro序列化消息。我想存储它们以供以后使用带有AvroSerDe的Hive表进行分析。我在Azure中运行,并将消息存储在blob中。我试图避免有很多小Blob(因为我相信这会对Hive产生负面影响)。如果我已经将Avroheader写入blob,我相信可以使用CloudBlockBlob.PutBlockAsync()附加Avro数据block。(只要我知道同步标记。)但是,我检查了两个.NET库,它们似乎不支持我的方法。(我必须一次写入整个Avro容器文件)。http://www.nuget.org/pack

azure - 在 Azure SQL 数据仓库中使用 Polybase 技术,我可以查询以 parquet Hadoop 格式存储的数据吗?

借助AzureSQL数据仓库中的Polybase技术,我是否可以查询以parquetHadoop格式存储的数据?感谢您的帮助。 最佳答案 目前,PolyBase不支持ApacheParquet。它在PolyBase内实现的路线图上,因为它允许用户利用Hadoop中类似于SQLDW中的柱状数据结构。感谢John提出的问题-我会将其添加到我们正在跟踪的功能请求中。更新:读写Parquet文件是nowsupported. 关于azure-在AzureSQL数据仓库中使用Polybase技术,我

hadoop - 如何在将数据从 Hadoop 传输到 Google Cloud Storage 时加快 distcp

谷歌云提供了与Hadoop一起工作的连接器。(https://cloud.google.com/hadoop/google-cloud-storage-connector)使用连接器,我从hdfs接收数据到谷歌云存储例)hadoopdiscphdfs://${path}gs://${path}但是数据太大(16TB),接收速度只有2mb/s因此,我尝试更改设置distcp(map属性、带宽属性...)但是速度是一样的。如何在将数据从HDFS传输到GoogleCloudStorage时加快distcp 最佳答案 officialdoc

azure - 如何保护 Azure Key Vault 中的 blob 存储访问 key

我们希望在key保管库中保护AzureBlob存储访问key。哪个版本https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure支持这种功能,因为当前的支持并不那么安全。http://hadoop.apache.org/docs/stable/hadoop-azure/index.html使用AzureBlob存储需要配置凭据。通常这是在core-site.xml中设置的。配置属性名称的格式为fs.azure.account.key..blob.core.windows.net,值为访问key。访问key是保护对存