azure-databricks

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是，在Azure上，这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

azure - 使用 Azure 存储创建外部表

我正在尝试使用以下方法创建下表，但收到错误消息:org.apache.hive.service.cli.HiveSQLException:Errorwhilecompilingstatement:FAILED:HiveAccessControlExceptionPermissiondenied:user[admin]doesnothave[ALL]privilegeon[wasb://mycontainer@smystg.blob.core.windows.net]我已经将带有存储键的属性添加到core-site.xml并且:fs.azure.secure.modetruefs.azu

azure section questions gt hadoop hive storage

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群，然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

apache-spark SparkRunner apache FileSystem java hadoop azure-storage apache-beam azure-hdinsight

azure - 手动更改配置文件后，Ambari 是否会恢复配置？

我正在运行带有边缘节点的MicrosoftHDInsight3.6集群。对于我们的应用需求，我们需要更改边缘节点上core-site.xml中的一个属性值，我们目前正在尝试使用shell脚本(使用sed命令)来实现但是，我们看到配置已恢复到其原始值，这导致我们的应用程序出现问题。请注意，边缘节点主机与集群中的所有其他节点位于相同的“默认”配置组中。我是新手所以想了解以下内容-有没有办法我们可以手动编辑文件并在边缘节点上保留新配置？我们是否应该始终通过Ambari服务器更改配置？我是新手，所以如果我遗漏了支持我的问题所需的任何重要信息，请发表评论，我会提供。提前致谢!

Ambari azure section 自定 hadoop azure-hdinsight

linux - Azure df 中的磁盘空间和使用情况显示已满但 du 没有添加

我有一个安装了四个外部磁盘的azure虚拟机。df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda129G28G0100%/none4.0K04.0K0%/sys/fs/cgroupudev1.7G12K1.7G1%/devtmpfs345M460K344M1%/runnone5.0M05.0M0%/run/locknone1.7G01.7G0%/run/shmnone100M0100M0%/run/usernone64K064K0%/etc/network/interfaces.dynamic.d/dev/sdb1133G31G96G25%

linux Azure root var code hadoop

apache-spark - 将大量数据从 SQL Server 传输和转换到 Azure SQL Server 的最佳方法。 Azure 数据工厂、HDInsight 等

我想找到将20GBSQL数据从安装在客户现场服务器Client上的SQLServer数据库传输到我们的AzureSQLServerSource的最佳方法，S4有200DTUs性能每月320美元。在进行初始设置时，我们设置了一个Azure数据工厂，通过多个表副本复制超过20GB，例如，客户端表A的内容到源表A，客户端表B的内容到源表B，等等。然后我们运行许多提取器存储过程，通过将这些源表连接在一起，将源表中的数据插入到阶段表中，例如，源A连接到源B。之后是增量副本，但初始设置确实需要永远。目前S4的复制时间在12小时左右，解压时间为4小时。以每月2400美元的价格将性能层级提高到1600

Server Azure section noreferrer apache-spark hadoop azure-sql-database azure-hdinsight azure-data-factory-2

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后，我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标，我走对了吗？我需要额外的处理器吗？？以及在定义此流程时我需要进行的任何重要配置？请帮助我，因为我是新手并且刚刚开始使用NiFi

Platform Google code section Azure hadoop google-cloud-platform bigdata apache-nifi

azure - 如何连接 Azure 机器学习和 Spark Streaming 或 Apache Storm

是否有可能将流从SparkStreaming或ApacheStorm获取到Azure机器学习中？在reader选项中有一个从Hive数据库读取数据的输入但是如何从Spark或Storm获取实时数据流，例如实时欺诈检测最佳答案我理解使用开源Storm或Spark来做到这一点的愿望。但我也想提供100%Azure解决方案，因为就我个人而言，我发现它是使用流数据快速完成许多“简单”事情的好方法。首先，我们有服务总线，它可以包含事件中心。事件中心是一个管理良好的队列，可以在其中将数据事件流式传输到云中。queue有暂停，rewind功能

Streaming Apache section strong Spark azure hadoop cortana-intelligence azure-machine-learning-studio

azure - pipemapred waitoutputthreads 子进程失败，代码为 255

我正在AzureHDInsight(Hadoop)上运行一个简单的Map/Reduce作业。映射器失败并出现以下错误(来自JobTracker日志)...2014-03-2716:42:50,330INFOorg.apache.hadoop.mapred.TaskInProgress:Errorfromattempt_201403262112_0004_m_000000_0:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode255atorg.apache.hadoop.st

waitoutputthreads pipemapred hadoop apache code azure mapreduce streaming azure-hdinsight

azure - 从 Azure HDInsight 迁移到 Amazon EMR？

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品，并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop，我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建，我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验，但还没有使用Hadoop。现在，我们知道Azure不如EMR成熟，而AWS会是更好的选择，至少在未来几年是这样。但是，使用.Net在Azure上进行开发可能会更容易，并且还可以节省一些前期成本，因为我们已经在使用它。因此，我们正在考虑在Azure上构建产品

HDInsight Amazon section Azure hadoop amazon-web-services azure-hdinsight

102 103 104105106 107 108