spark-submit_草庐IT

sql - 如何在spark中使用多个键构建查找功能

我是spark的新手，上周问了一个类似的问题。它编译但不工作。所以我真的不知道该怎么办。这是我的问题:我的表A包含3列，如下所示-----------A1A1A3-----------abc还有另一个像这样的表B------------------------------------B1B2B3B4B5B6B7B8B9------------------------------------1a345b78c我的逻辑是:A1A2A3是我的键，它对应表B中的B2B6B9。我需要构建一个以A1A2A3为键并返回B8的查找函数。这是我上周尝试的://gettingthedataintodata

何在 spark code String 34 sql scala hadoop apache-spark

hadoop - 通过 spark.read.json() 加载时从 JSON 中删除一列

我陷入了一个非常奇怪的境地。例如，我有一个包含这三个JSON的文件。{"uploadTimeStamp":"1500618037189","ID":"123ID","data":[{"Data":{"unit":"rpm","value":"0"},"EventID":"E1","Timestamp":1500618037189,"pii":{}},{"Data":{"heading":"N","loc1":"false","loc2":"13.022425","loc3":"77.760587","loc4":"false","speed":"10"},"EventID":"E2",

hadoop spark 34 code REGULAR_DUMMY apache-spark-sql

hadoop - 当 parquet 使用 Snappy 算法而不是 gzip 时，将 parquet 数据写入 hive 的 spark 作业卡在了最后一个任务中

我正在将一个Parquet文件从DataFrame写入Hive。当我使用snappy作为parquet压缩算法时，我可以看到所有任务，但1个任务在写作阶段迅速完成(例如30/31)。由于大量的gc进程，最后一项任务需要很长时间才能完成。当我使用gzip作为parquet压缩算法时，一切都会正常。我想知道两种压缩算法有什么不同。最佳答案 gzip自然受到Hadoop的支持。gzip基于DEFLATE算法，它结合了LZ77和霍夫曼编码。GZIP压缩比Snappy使用更多CPU资源，但提供更高的压缩率。GZip通常是冷数据的好选择，不经

parquet hadoop strong section apache-spark apache-spark-sql snappy

java - Spark SQL 看不到 hdfs 文件

我有一个spark应用程序，它在集群AWSEMR上运行。我已将文件添加到hdfs:javaSparkContext.addFile(filePath,recursive);hdfs上存在文件(可用日志:文件可读/可执行/可写)，但我无法使用sparkSQLAPI从该文件读取信息:LOGGER.info("Sparkworkingdirectory:"+path);Filefile=newFile(path+"/test.avro");LOGGER.info("SPARKPATH:"+file);LOGGER.info("read:"+file.canRead());LOGGER.inf

Spark java 3Calculator scala hadoop apache-spark hdfs

hadoop - 无法在 Spark API 中打印/记录消息

我正在调试Spark作业，但不知何故，控制台/日志中隐藏了SparkAPI调用中的任何内容，这是我的代码:publicstaticJavaRDDjoin(JavaPairRDDhBaseRdd,Listfields){System.out.println("Injoinmethod....");logger.error("Injoinmethod....logger.error");JavaRDDpjs=hBaseRdd.map(tuple->{System.out.println("inmapAPI.....");logger.error("inmapAPI....logger.er

hadoop Spark code section logger apache-spark logging rdd

hadoop - beeline 和 spark-shell 可以为同一个 apache spark 显示不同的数据库吗？

我在ubuntu上安装了hadoop2.8.1，然后在上面安装了spark-2.2.0-bin-hadoop2.7。首先，当我通过spark-shell创建数据库并尝试通过javaJDBC程序访问它时，我发现没有表存在。然后我使用直线并观察到这里也不存在数据库。我通过直线创建数据库。为什么spark-shell和beeline显示的DB不同？他们可能应该显示相同的内容。我尝试了连接hive2并获取表的普通JDBC程序，观察到有时它显示我通过spark-shell创建的表，有时显示通过直线创建的表...请帮助。有时直线也会发生同样的情况。最佳答案

spark spark-shell section hive hadoop apache-spark jdbc

hadoop - 在同一台机器上安装 Spark 和 Hadoop

我正在尝试在同一台机器上安装SparkApache和Hadoop。Spark将用于处理数据，而来自Hadoop的HDFS将用于存储数据。我首先从安装spark开始，它运行良好。但是，当我开始安装Hadoop并设置JAVA_HOME环境变量时，HDFS起作用了，但是当我启动它时，spark崩溃并显示:Fileswasunexpectedatthistime.。当我删除JAVA_HOME时，Spark再次工作，但HDFS不是这样。这种情况怎么办？最佳答案您使用的是什么操作系统？你能显示你的JAVA_HOME路径吗？您的JAVA_HO

hadoop section JAVA_HOME apache-spark pyspark hdfs

hadoop - 与表锁定相关的 Spark Hive 插入

只是一个简单的问题。我正在尝试执行一个版本为1.6.0的Spark程序，该程序在Hive表上使用并发加载。在hiveContext.sql("insert...")中使用insert语句是一种方法，因为我想确保在写入过程中锁定表，因为从什么我在Spark文档中看到，当对DataFrame使用Saving操作时，无法确保表锁定和原子性。"SaveoperationscanoptionallytakeaSaveMode,thatspecifieshowtohandleexistingdataifpresent.Itisimportanttorealizethatthesesavemodes

hadoop Spark section strong code apache-spark hive

hadoop - 如何在 Java 中获取 Spark 执行器的工作目录？

这个问题已经存在:Copyfiles(config)fromHDFStolocalworkingdirectoryofeverysparkexecutor关闭5年前。我需要知道Spark执行器的当前工作目录URI/URL，以便我可以在作业执行之前将一些依赖项复制到那里。我如何进入Java？我应该调用什么api？

何在 hadoop section notice directory apache-spark

java - 加载到 Spark 数据集中的文件列表

假设我们有以下文件结构实时\temp\f1.txt,f2.txt,f3.txt我们已经在spark2中为这些文件创建了数据集。现在，在处理完这些文件后，我们需要从源位置(realtime\temp)删除这些文件所以我们需要这些我们创建数据集的所有文件的列表。提前致谢最佳答案您可以创建一个hadoop文件系统对象。然后列出目录中的文件。获得列表后，只需遍历文件即可将它们一一删除。importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.FileSyst

Spark java section allFileIterator hadoop apache-spark azure-blob-storage