草庐IT

sparking

全部标签

apache-spark - Apache Spark 2.3.1 与 HDP 3.0 中的 Hadoop 3.0 的兼容性

我计划从Hortonworks数据平台[HDP](版本2.6.x)升级到HDP3.0。但是,ApacheSpark2.3.x及其与Hadoop3.0的集成似乎存在一些重大错误,这些错误在ApacheSparkJIRA问题中仍未解决。尽管Spark开发团队正在努力解决它们。这些问题是否有Hortonworks团队的解决方法/解决方案,或者它们是否仍然存在于HDP3.0中?关于我的用例的一些Unresolved问题:SparkDataFrames不适用于Hadoop3.0https://issues.apache.org/jira/browse/SPARK-18673Kerberos票证更

输入参数为 Map 类型的 Java Spark UDF

我的Hive表结构如下-createtablesessionize_data(ipstringcookiestringuseridstringdattimestringtimestampbigintreferrerstringrequeststringuseragentstringabsoluteipsstringxffstringcalltypestringurlstringunique_visitorstringreferrer_urlstringreferrer_dqpmapdqpmapparamsmapevents_subcategorymapsession_idstrings

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

java - 为什么 Spark 不能在 Eclipse 上运行?

我已经使用Python3.7、JRE8、JDK1.8在Eclipse(Eclipse插件:PyDev)上安装了带有hadoop2.6的pysark2.1。我正在尝试运行一个简单的测试代码:frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()但是我得到以下错误:UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.propertiesSettingdefaultloglevelto"WARN".Toadjustloggin

apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台

我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序,但我遇到了问题。我们怎么知道我们的设置何时工作?我会告诉你我的例子。完成设置后,我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表,以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

apache-spark - 将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错

我正在尝试按照以下步骤将数据框加载到Hive表中:读取源表并将数据帧保存为HDFS上的CSV文件valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable",s"(${execQuery})asyear2016").option("user",devUserName).option("password",devPassword).option("partitionColumn","header_id").option("lowerBound",199199).option("upperB

scala - Spark Streaming - 刷新静态数据

我有一个SparkStreaming作业,它在启动时查询Hive并创建一个Map[Int,String]对象,然后该对象用于作业执行的部分计算。我遇到的问题是Hive中的数据每2小时就有可能发生变化。我希望能够按计划刷新静态数据,而不必每次都重新启动Spark作业。map对象的初始加载大约需要1分钟。非常欢迎任何帮助。 最佳答案 您可以使用监听器。每次为spark上下文中的任何流启Action业时都会触发。由于您的数据库每两个小时更新一次,因此每次更新AFAIK都没有什么坏处。sc.addSparkListener(newSpark

scala - 如何在 Spark 上执行大型计算

我在Hive中有2个表:user和item我正在尝试计算每个表的2个特征之间的余弦相似度,以获得2个表之间的笛卡尔积,即交叉连接。大约有20000个users和5000个items导致1亿行计算。我在具有12个内核的HiveCluster上使用ScalaSpark运行计算。代码有点像这样:valpairs=userDf.crossJoin(itemDf).repartition(100)valresults=pairs.mapPartitions(computeScore)//computeScoreisafunctiontocomputethesimilarityscoresInee

apache-spark - Hortonworks Hive Warehouse 连接器和模式更新

似乎HortonworksHiveWarehouseConnector直到v.1.0.0不支持模式更新。我尝试使用hive.createTable(tableName).ifNotExists().column(name,type).create()如果表存在但具有不同的架构并且没有任何反应。然后我尝试用不同的模式编写DataFrame。dataFrame.write.format("com.hortonworks.spark.sql.hive.llap.HiveWarehouseConnector").save()也没有任何反应。我希望像Spark那样抛出AnalysisExcept