草庐IT

azure-analysis-services

全部标签

azure - hive中如何向单个文件中插入数据

这项工作INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/'SELECT*fromtable1;但是当我们发出这样的命令时INSERTOVERWRITEDIRECTORY'wasb:///hiveblob/sample.csv'SELECT*fromtable1;失败,异常无法重命名:wasb://incrementalhive-1@crmdbs.blob.core.windows.net/hive/scratch/hive_2015-06-08_10-01-03_930_4881174794406290153-1/-ext-10000到:wasb:/

DataStage登录报错:Failed to authenticate the current user against the selected Services Tier.

背景:近期同事一直在使用DataStage登录查找作业,突然今天无法登陆了。报错:FailedtoauthenticatethecurrentuseragainsttheselectedServicesTier.结论:解决了。报错处理过程1.开始第一反应是重装DataStage,毕竟我和另外几个同事的能够正常连接,他那边测试DS节点主机名都可以ping通,但是问题来了,发现2个问题:1)安装地址默认跳转到IE11,也就是MicrosoftEdge浏览器。2)MicrosoftEdge浏览器无法完成对DataStage的安装或者卸载动作。2.要处理第一个问题,先要在MicrosoftEdge浏览

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业,但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何,在Hive中尝试创建指向S3位置的外部表时,我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

amazon-web-services - 具有重叠 EC2 实例的集群

我有以下具有重叠EC2实例的集群,例如:Yarn集群和Memcached集群使用相同的实例2、3、4;此外,每个实例都有不同的RAM、CPU、内核大小,这会不会有潜在的类(class)问题?还是集群自己做平衡?谢谢!Spark集群:EC2实例2、3、5Yarn集群:EC2实例1、2、3、4、5Memcached数据库集群:EC2实例2、3、4、6instance1:512GBRAM,2vCPU,2coresinstance2:1TBRAM,8vCPU,4coresinstance3:2TBRAM,6vCPU,6coresinstance4:256GBRAM,2vCPU,2coresin

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件?只想让我的应用程序读取访问key和secret,如下所示,但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

azure - 我可以将 Avro 序列化数据附加到现有的 Azure blob 吗?

我在问我是否可以,但我也想知道我是否应该。这是我的场景:我正在小批量接收Avro序列化消息。我想存储它们以供以后使用带有AvroSerDe的Hive表进行分析。我在Azure中运行,并将消息存储在blob中。我试图避免有很多小Blob(因为我相信这会对Hive产生负面影响)。如果我已经将Avroheader写入blob,我相信可以使用CloudBlockBlob.PutBlockAsync()附加Avro数据block。(只要我知道同步标记。)但是,我检查了两个.NET库,它们似乎不支持我的方法。(我必须一次写入整个Avro容器文件)。http://www.nuget.org/pack

azure - 在 Azure SQL 数据仓库中使用 Polybase 技术,我可以查询以 parquet Hadoop 格式存储的数据吗?

借助AzureSQL数据仓库中的Polybase技术,我是否可以查询以parquetHadoop格式存储的数据?感谢您的帮助。 最佳答案 目前,PolyBase不支持ApacheParquet。它在PolyBase内实现的路线图上,因为它允许用户利用Hadoop中类似于SQLDW中的柱状数据结构。感谢John提出的问题-我会将其添加到我们正在跟踪的功能请求中。更新:读写Parquet文件是nowsupported. 关于azure-在AzureSQL数据仓库中使用Polybase技术,我

azure - 如何保护 Azure Key Vault 中的 blob 存储访问 key

我们希望在key保管库中保护AzureBlob存储访问key。哪个版本https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure支持这种功能,因为当前的支持并不那么安全。http://hadoop.apache.org/docs/stable/hadoop-azure/index.html使用AzureBlob存储需要配置凭据。通常这是在core-site.xml中设置的。配置属性名称的格式为fs.azure.account.key..blob.core.windows.net,值为访问key。访问key是保护对存

azure - 使用 IaaS 的 Azure 上的 Hadoop

我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大,我正在考虑将数据存储在二级存储中,例如AzureDataLakeStore和Hadoop集群存储将充当主存储。我想知道如何配置,以便在创建Hive表和分区时,部分数据可以驻留在主存储中,其余数据驻留在辅助存储中?谢谢问候,马杜 最佳答案 默认情况下,您不能将文件系统与Hive表混合使用。Hive元存储仅包含一个用于数据库/表定义的文件系统位置。您可以尝试使用WaggleDance设置一个联合Hive解决方案,但这可能比简单地允许Hive数据存在