spark-submit

apache-spark - HDFS 批量分析

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我通常使用SparkStructuredStreaming、Kafka、HBase等进行实时分析。我没有开发任何批处理分析作业/系统。我想学习批量分析设计和开发。为此，我尝试了解lambda架构但我不知道一些事情。让我们回顾一下假设。我正在实时获取点击流数据。所有数据都发送到Kafka进行摄取。速度层:我们可以使用SparkStreaming/Flink等实时分析点击流数据中的session。然后我们可以

python - spark/pyspark 与 HBase 的集成

是否可以将Spark2.4.3连接到远程HBase1.3.2服务器？我试过使用这个版本:https://repo.hortonworks.com/content/repositories/releases/com/hortonworks/shc-core/1.1.1-2.1-s_2.11/但似乎存在兼容性问题:java.lang.NoSuchMethodError:org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;spark-submit--packagesc

pyspark python 34 shc-core blockquote apache-spark hadoop hbase

hadoop - Apache Spark 上的 AMPLab 鲨鱼

根据文档，“ApacheSpark是一种用于大规模数据处理的快速通用引擎。”“Shark是一个用于Hadoop数据的开源分布式SQL查询引擎。”Shark使用Spark作为依赖。我的问题是，如果我们使用Shark对分析查询进行快速响应，Spark只是将HiveQL解析为Spark作业还是做任何事情？最佳答案是的，Shark使用与Hive相同的想法，但将HiveQL转换为Spark作业而不是MapReduce作业。请阅读this的第13-14页这两者之间架构差异的文档。关于hadoo

hadoop Apache section Spark Shark hive apache-spark shark-sql

hadoop - 无法在 HDP 2.0 上运行 Spark 1.0 SparkPi

我遇到了在HDP2.0上运行sparkPI示例的问题我从http://spark.apache.org/downloads.html下载了spark1.0pre-build(对于HDP2)来自spark网站的运行示例:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory2g--executor-memory2g--executor-cores1./lib/spark-examples-1.0.0-hadoop2.2.0.j

SparkPi hadoop spark application apache apache-spark hortonworks-data-platform

java - 如何使用 java 读取 spark 中的 xls 和 xlsx 文件？

我想在spark中逐行读取xls和xlsx(MSExcel)文件，就像我们读取文本文件一样，或者如何读取？我想使用spark来提高读取大型xls文件(比如1GB)的性能，这就是为什么我需要spark来像读取文本文件一样分段读取文件。spark如何从excel文件中读取数据，是否逐行读取？无论如何，我只想使用spark读取xls文件中的条目。请提出建议。谢谢!!! 最佳答案这是我的做法。在maven中添加依赖org.apache.sparkspark-core_2.112.4.2org.apache.sparkspark-sql_2

java spark lt gt hadoop apache-spark rdd spark-dataframe

java - 在 map reduce spark 的设置键值对中插入一个 if 循环

如何在sparkmapreduce中设置键时插入if循环？我希望如果输入的单词是以大写字母开头的，则将其设置为键，否则不(字数统计示例示例输入-affaAgshsdjdDhh示例输出-Agshs1嗯1) 最佳答案你必须使用filter()sample_input.txtaffaAgshsdjdDhhsmallCapitalFirstbignotFirstBigSpark外壳valdata=sc.textFile("sample_input.txt")valfilteredData=data.flatMap(line=>line.s

reduce spark strong section code java hadoop mapreduce apache-spark

scala - 无法在spark中使用reduceByKey((v1，v2)=> v1 + v2)scala函数计算单词

我刚开始学习spark。在独立模式下使用spark并尝试在scala中进行字数统计。我观察到的问题是reduceByKey()没有按预期对单词进行分组。打印NULL数组。我遵循的步骤如下...创建一个文本文件并包含一些由空格分隔的单词。在sparkshell中，我正在执行以下命令。scala>importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContextscala>importorg.apache.spark.SparkContext._importorg.apache.spark.SparkContext.

数计 scala INFO scheduler 09 hadoop apache-spark bigdata

azure - 如何连接 Azure 机器学习和 Spark Streaming 或 Apache Storm

是否有可能将流从SparkStreaming或ApacheStorm获取到Azure机器学习中？在reader选项中有一个从Hive数据库读取数据的输入但是如何从Spark或Storm获取实时数据流，例如实时欺诈检测最佳答案我理解使用开源Storm或Spark来做到这一点的愿望。但我也想提供100%Azure解决方案，因为就我个人而言，我发现它是使用流数据快速完成许多“简单”事情的好方法。首先，我们有服务总线，它可以包含事件中心。事件中心是一个管理良好的队列，可以在其中将数据事件流式传输到云中。queue有暂停，rewind功能

Streaming Apache section strong Spark azure hadoop cortana-intelligence azure-machine-learning-studio

scala - Spark 中向量之间的平方距离

我正在尝试在spark中使用平方距离函数，但似乎没有任何效果。我尝试了Vector.sqdist但收到此错误“sqdist不是scala.collections的成员......”(但文档显示它是[org.apache.spark.mllib.linalg的成员。我导入的矢量](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.linalg.Vector))./*SimpleApp.scala*/importorg.apache.spark.SparkContextimport

scala Spark apache code hadoop apache-spark

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

201 202 203204205 206 207