草庐IT

spark-submit

全部标签

sql - 如何在spark中使用多个键构建查找功能

我是spark的新手,上周问了一个类似的问题。它编译但不工作。所以我真的不知道该怎么办。这是我的问题:我的表A包含3列,如下所示-----------A1A1A3-----------abc还有另一个像这样的表B------------------------------------B1B2B3B4B5B6B7B8B9------------------------------------1a345b78c我的逻辑是:A1A2A3是我的键,它对应表B中的B2B6B9。我需要构建一个以A1A2A3为键并返回B8的查找函数。这是我上周尝试的://gettingthedataintodata

hadoop - 通过 spark.read.json() 加载时从 JSON 中删除一列

我陷入了一个非常奇怪的境地。例如,我有一个包含这三个JSON的文件。{"uploadTimeStamp":"1500618037189","ID":"123ID","data":[{"Data":{"unit":"rpm","value":"0"},"EventID":"E1","Timestamp":1500618037189,"pii":{}},{"Data":{"heading":"N","loc1":"false","loc2":"13.022425","loc3":"77.760587","loc4":"false","speed":"10"},"EventID":"E2",

hadoop - 当 parquet 使用 Snappy 算法而不是 gzip 时,将 parquet 数据写入 hive 的 spark 作业卡在了最后一个任务中

我正在将一个Parquet文件从DataFrame写入Hive。当我使用snappy作为parquet压缩算法时,我可以看到所有任务,但1个任务在写作阶段迅速完成(例如30/31)。由于大量的gc进程,最后一项任务需要很长时间才能完成。当我使用gzip作为parquet压缩算法时,一切都会正常。我想知道两种压缩算法有什么不同。 最佳答案 gzip自然受到Hadoop的支持。gzip基于DEFLATE算法,它结合了LZ77和霍夫曼编码。GZIP压缩比Snappy使用更多CPU资源,但提供更高的压缩率。GZip通常是冷数据的好选择,不经

java - Spark SQL 看不到 hdfs 文件

我有一个spark应用程序,它在集群AWSEMR上运行。我已将文件添加到hdfs:javaSparkContext.addFile(filePath,recursive);hdfs上存在文件(可用日志:文件可读/可执行/可写),但我无法使用sparkSQLAPI从该文件读取信息:LOGGER.info("Sparkworkingdirectory:"+path);Filefile=newFile(path+"/test.avro");LOGGER.info("SPARKPATH:"+file);LOGGER.info("read:"+file.canRead());LOGGER.inf

hadoop - 无法在 Spark API 中打印/记录消息

我正在调试Spark作业,但不知何故,控制台/日志中隐藏了SparkAPI调用中的任何内容,这是我的代码:publicstaticJavaRDDjoin(JavaPairRDDhBaseRdd,Listfields){System.out.println("Injoinmethod....");logger.error("Injoinmethod....logger.error");JavaRDDpjs=hBaseRdd.map(tuple->{System.out.println("inmapAPI.....");logger.error("inmapAPI....logger.er

hadoop - beeline 和 spark-shell 可以为同一个 apache spark 显示不同的数据库吗?

我在ubuntu上安装了hadoop2.8.1,然后在上面安装了spark-2.2.0-bin-hadoop2.7。首先,当我通过spark-shell创建数据库并尝试通过javaJDBC程序访问它时,我发现没有表存在。然后我使用直线并观察到这里也不存在数据库。我通过直线创建数据库。为什么spark-shell和beeline显示的DB不同?他们可能应该显示相同的内容。我尝试了连接hive2并获取表的普通JDBC程序,观察到有时它显示我通过spark-shell创建的表,有时显示通过直线创建的表...请帮助。有时直线也会发生同样的情况。 最佳答案

hadoop - 在同一台机器上安装 Spark 和 Hadoop

我正在尝试在同一台机器上安装SparkApache和Hadoop。Spark将用于处理数据,而来自Hadoop的HDFS将用于存储数据。我首先从安装spark开始,它运行良好。但是,当我开始安装Hadoop并设置JAVA_HOME环境变量时,HDFS起作用了,但是当我启动它时,spark崩溃并显示:Fileswasunexpectedatthistime.。当我删除JAVA_HOME时,Spark再次工作,但HDFS不是这样。这种情况怎么办? 最佳答案 您使用的是什么操作系统?你能显示你的JAVA_HOME路径吗?您的JAVA_HO

hadoop - 与表锁定相关的 Spark Hive 插入

只是一个简单的问题。我正在尝试执行一个版本为1.6.0的Spark程序,该程序在Hive表上使用并发加载。在hiveContext.sql("insert...")中使用insert语句是一种方法,因为我想确保在写入过程中锁定表,因为从什么我在Spark文档中看到,当对DataFrame使用Saving操作时,无法确保表锁定和原子性。"SaveoperationscanoptionallytakeaSaveMode,thatspecifieshowtohandleexistingdataifpresent.Itisimportanttorealizethatthesesavemodes

hadoop - 如何在 Java 中获取 Spark 执行器的工作目录?

这个问题已经存在:Copyfiles(config)fromHDFStolocalworkingdirectoryofeverysparkexecutor关闭5年前。我需要知道Spark执行器的当前工作目录URI/URL,以便我可以在作业执行之前将一些依赖项复制到那里。我如何进入Java?我应该调用什么api?

java - 加载到 Spark 数据集中的文件列表

假设我们有以下文件结构实时\temp\f1.txt,f2.txt,f3.txt我们已经在spark2中为这些文件创建了数据集。现在,在处理完这些文件后,我们需要从源位置(realtime\temp)删除这些文件所以我们需要这些我们创建数据集的所有文件的列表。提前致谢 最佳答案 您可以创建一个hadoop文件系统对象。然后列出目录中的文件。获得列表后,只需遍历文件即可将它们一一删除。importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.FileSyst