草庐IT

azure-databricks

全部标签

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是,在Azure上,这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

azure - 使用 Azure 存储创建外部表

我正在尝试使用以下方法创建下表,但收到错误消息:org.apache.hive.service.cli.HiveSQLException:Errorwhilecompilingstatement:FAILED:HiveAccessControlExceptionPermissiondenied:user[admin]doesnothave[ALL]privilegeon[wasb://mycontainer@smystg.blob.core.windows.net]我已经将带有存储键的属性添加到core-site.xml并且:fs.azure.secure.modetruefs.azu

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群,然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

azure - 手动更改配置文件后,Ambari 是否会恢复配置?

我正在运行带有边缘节点的MicrosoftHDInsight3.6集群。对于我们的应用需求,我们需要更改边缘节点上core-site.xml中的一个属性值,我们目前正在尝试使用shell脚本(使用sed命令)来实现但是,我们看到配置已恢复到其原始值,这导致我们的应用程序出现问题。请注意,边缘节点主机与集群中的所有其他节点位于相同的“默认”配置组中。我是新手所以想了解以下内容-有没有办法我们可以手动编辑文件并在边缘节点上保留新配置?我们是否应该始终通过Ambari服务器更改配置?我是新手,所以如果我遗漏了支持我的问题所需的任何重要信息,请发表评论,我会提供。提前致谢!

linux - Azure df 中的磁盘空间和使用情况显示已满但 du 没有添加

我有一个安装了四个外部磁盘的azure虚拟机。df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda129G28G0100%/none4.0K04.0K0%/sys/fs/cgroupudev1.7G12K1.7G1%/devtmpfs345M460K344M1%/runnone5.0M05.0M0%/run/locknone1.7G01.7G0%/run/shmnone100M0100M0%/run/usernone64K064K0%/etc/network/interfaces.dynamic.d/dev/sdb1133G31G96G25%

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法,S4有200DTUs性能每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,通过多个表副本复制超过20GB,例如,客户端表A的内容到源表A,客户端表B的内容到源表B,等等。然后我们运行许多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到阶段表中,例如,源A连接到源B。之后是增量副本,但初始设置确实需要永远。目前S4的复制时间在12小时左右,解压时间为4小时。以每月2400美元的价格将性能层级提高到1600

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后,我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标,我走对了吗?我需要额外的处理器吗??以及在定义此流程时我需要进行的任何重要配置?请帮助我,因为我是新手并且刚刚开始使用NiFi

azure - 如何连接 Azure 机器学习和 Spark Streaming 或 Apache Storm

是否有可能将流从SparkStreaming或ApacheStorm获取到Azure机器学习中?在reader选项中有一个从Hive数据库读取数据的输入但是如何从Spark或Storm获取实时数据流,例如实时欺诈检测 最佳答案 我理解使用开源Storm或Spark来做到这一点的愿望。但我也想提供100%Azure解决方案,因为就我个人而言,我发现它是使用流数据快速完成许多“简单”事情的好方法。首先,我们有服务总线,它可以包含事件中心。事件中心是一个管理良好的队列,可以在其中将数据事件流式传输到云中。queue有暂停,rewind功能

azure - pipemapred waitoutputthreads 子进程失败,代码为 255

我正在AzureHDInsight(Hadoop)上运行一个简单的Map/Reduce作业。映射器失败并出现以下错误(来自JobTracker日志)...2014-03-2716:42:50,330INFOorg.apache.hadoop.mapred.TaskInProgress:Errorfromattempt_201403262112_0004_m_000000_0:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode255atorg.apache.hadoop.st

azure - 从 Azure HDInsight 迁移到 Amazon EMR?

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品,并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop,我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建,我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验,但还没有使用Hadoop。现在,我们知道Azure不如EMR成熟,而AWS会是更好的选择,至少在未来几年是这样。但是,使用.Net在Azure上进行开发可能会更容易,并且还可以节省一些前期成本,因为我们已经在使用它。因此,我们正在考虑在Azure上构建产品