草庐IT

azure-devops

全部标签

azure - HDInsight 客户端缺少库

我们有在Azure上运行的HDInsight集群。我试图创建一个客户端机器来连接到HDInsight。我按照Hortonworks安装指南中的说明安装所有客户端组件,然后将/etc/hadoop/conf从一个HDInsight节点复制到这个新节点。但是当我尝试通过hadoopfs-ls访问集群时,出现以下错误root@sbd-docker:~#hadoopfs-ls/log4j:ERRORCouldnotinstantiateclass[com.microsoft.log4jappender.EtwAppender].java.lang.ClassNotFoundException:

Azure oozie 工作流

我正在尝试在azurehdinsight集群上运行oozie工作流,作业定义如下所示:jobtrackerhost:9010wasb://abc@def.blob.core.windows.netmapred.job.queue.namedefaultimport--connectjdbc:mysql://{ip}/svnadmin--usernameuname--passwordpassword--tablerights--hive-importsqoopfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]日志:201

hadoop - 将数据从 Hadoop(本地)加载到 Azure Data Lake 的不同方法

我需要每8小时将数据从Hadoop(这是本地Hortonworks集群)加载到AzureDataLake。你能告诉我——在实现解决方案时可以尝试哪些不同的方法吗?ADF[我们可以创建管道事件并安排它们]还要别的吗?谢谢,亚拉汶 最佳答案 我们在thislink提供了高级选项.搜索:“存储在本地或IaaSHadoop集群中的数据”。但是,需要根据以下方面进行微调:1.您要移动多少数据、文件数量、文件大小等。较小的文件将需要更长的时间来传输。2.从本地到Azure的网络连接如果您有ExpressRoute可用,您将获得更好的体验。如果您

postgresql - Microsoft Azure HDInsight Ambari Sqoop 和 Postgres

尝试将数据从postgres导入MicrosoftAzureHDInsigt上的hdfs。如果列出dbs,现在我从一个非常简单的命令开始sqooplist-databases--connectjdbc.postgresql://xx.xxx.xxx.xxx:yyyy--usernamemyuser--passwordmypassword我得到以下错误ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanager:java.io.IOException:Nomanagerforconnectstring:jdbc.postgresql://

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是,在Azure上,这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

azure - 使用 Azure 存储创建外部表

我正在尝试使用以下方法创建下表,但收到错误消息:org.apache.hive.service.cli.HiveSQLException:Errorwhilecompilingstatement:FAILED:HiveAccessControlExceptionPermissiondenied:user[admin]doesnothave[ALL]privilegeon[wasb://mycontainer@smystg.blob.core.windows.net]我已经将带有存储键的属性添加到core-site.xml并且:fs.azure.secure.modetruefs.azu

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群,然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

azure - 手动更改配置文件后,Ambari 是否会恢复配置?

我正在运行带有边缘节点的MicrosoftHDInsight3.6集群。对于我们的应用需求,我们需要更改边缘节点上core-site.xml中的一个属性值,我们目前正在尝试使用shell脚本(使用sed命令)来实现但是,我们看到配置已恢复到其原始值,这导致我们的应用程序出现问题。请注意,边缘节点主机与集群中的所有其他节点位于相同的“默认”配置组中。我是新手所以想了解以下内容-有没有办法我们可以手动编辑文件并在边缘节点上保留新配置?我们是否应该始终通过Ambari服务器更改配置?我是新手,所以如果我遗漏了支持我的问题所需的任何重要信息,请发表评论,我会提供。提前致谢!

linux - Azure df 中的磁盘空间和使用情况显示已满但 du 没有添加

我有一个安装了四个外部磁盘的azure虚拟机。df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda129G28G0100%/none4.0K04.0K0%/sys/fs/cgroupudev1.7G12K1.7G1%/devtmpfs345M460K344M1%/runnone5.0M05.0M0%/run/locknone1.7G01.7G0%/run/shmnone100M0100M0%/run/usernone64K064K0%/etc/network/interfaces.dynamic.d/dev/sdb1133G31G96G25%

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法,S4有200DTUs性能每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,通过多个表副本复制超过20GB,例如,客户端表A的内容到源表A,客户端表B的内容到源表B,等等。然后我们运行许多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到阶段表中,例如,源A连接到源B。之后是增量副本,但初始设置确实需要永远。目前S4的复制时间在12小时左右,解压时间为4小时。以每月2400美元的价格将性能层级提高到1600