草庐IT

spark-submit

全部标签

apache-spark - 无法通过 PySpark 访问 Hive

我是Hadoop/Spark/Hive新手!我创建了一个在本地运行的单节点Linux(Ubuntu18.04.1LTS)虚拟机;Hadoop3.1.0;星火:Spark2.3.1,hive:Hive-3.0.0我的Hive使用标准的DerbyDB,我可以通过终端访问Hive并创建数据库和表,然后查询这些表。我的metastore_db位于~/hivemetastore/metastore_db我还创建了以下内容:hadoopfs-mkdir-p/user/hive/仓库hadoopfs-mkdir-p/tmp/hive(注意-我在$HIVE_HOME/conf或$SPARK_HOME/

apache-spark - 重新分区以避免大量小文件

目前我有一个ETL作业,它读取几个表,执行某些转换并将它们写回每日表。我在sparksql中使用以下查询“插入dbname.tablenamePARTITION(year_month)从Spark_temp_table中选择*插入所有这些记录的目标表按年X月级别分区。每天生成的记录并不多,因此我按年X月级别进行分区。但是,当我检查分区时,我的代码每天运行时它都有约50MB的小文件(代码必须每天运行),最终我的分区中将有大约30个文件,总计约1500MB我想知道是否有办法在我每天追加记录的同时在一个分区中创建一个(或者根据block大小限制可能创建2-3个文件)我认为我能做到的方法是从我

apache-spark - java.lang.IllegalArgumentException 在 org.apache.xbean.asm5.ClassReader.<init>(未知来源)与 Java 10

每当我尝试收集我的rdd时,我就开始收到以下错误。我安装Java10.1后就发生了所以当然是把它拿出来重新安装,同样的错误。然后我安装了Java9.04同样的错误。然后我撕掉了python2.7.14,apachespark2.3.0和Hadoop2.7,同样的错误。有没有人有任何其他原因导致我不断收到错误消息?>>>fromoperatorimportadd>>>frompysparkimportSparkConf,SparkContext>>>importstring>>>importsys>>>importre>>>>>>sc=SparkContext(appName="NEW"

apache-spark - Apache Spark 2.3.1 与 HDP 3.0 中的 Hadoop 3.0 的兼容性

我计划从Hortonworks数据平台[HDP](版本2.6.x)升级到HDP3.0。但是,ApacheSpark2.3.x及其与Hadoop3.0的集成似乎存在一些重大错误,这些错误在ApacheSparkJIRA问题中仍未解决。尽管Spark开发团队正在努力解决它们。这些问题是否有Hortonworks团队的解决方法/解决方案,或者它们是否仍然存在于HDP3.0中?关于我的用例的一些Unresolved问题:SparkDataFrames不适用于Hadoop3.0https://issues.apache.org/jira/browse/SPARK-18673Kerberos票证更

输入参数为 Map 类型的 Java Spark UDF

我的Hive表结构如下-createtablesessionize_data(ipstringcookiestringuseridstringdattimestringtimestampbigintreferrerstringrequeststringuseragentstringabsoluteipsstringxffstringcalltypestringurlstringunique_visitorstringreferrer_urlstringreferrer_dqpmapdqpmapparamsmapevents_subcategorymapsession_idstrings

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

java - 为什么 Spark 不能在 Eclipse 上运行?

我已经使用Python3.7、JRE8、JDK1.8在Eclipse(Eclipse插件:PyDev)上安装了带有hadoop2.6的pysark2.1。我正在尝试运行一个简单的测试代码:frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()但是我得到以下错误:UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.propertiesSettingdefaultloglevelto"WARN".Toadjustloggin

apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台

我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序,但我遇到了问题。我们怎么知道我们的设置何时工作?我会告诉你我的例子。完成设置后,我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表,以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

apache-spark - 将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错

我正在尝试按照以下步骤将数据框加载到Hive表中:读取源表并将数据帧保存为HDFS上的CSV文件valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable",s"(${execQuery})asyear2016").option("user",devUserName).option("password",devPassword).option("partitionColumn","header_id").option("lowerBound",199199).option("upperB