spark-ml_草庐IT

hadoop - beeline 和 spark-shell 可以为同一个 apache spark 显示不同的数据库吗？

我在ubuntu上安装了hadoop2.8.1，然后在上面安装了spark-2.2.0-bin-hadoop2.7。首先，当我通过spark-shell创建数据库并尝试通过javaJDBC程序访问它时，我发现没有表存在。然后我使用直线并观察到这里也不存在数据库。我通过直线创建数据库。为什么spark-shell和beeline显示的DB不同？他们可能应该显示相同的内容。我尝试了连接hive2并获取表的普通JDBC程序，观察到有时它显示我通过spark-shell创建的表，有时显示通过直线创建的表...请帮助。有时直线也会发生同样的情况。最佳答案

hadoop - 在同一台机器上安装 Spark 和 Hadoop

我正在尝试在同一台机器上安装SparkApache和Hadoop。Spark将用于处理数据，而来自Hadoop的HDFS将用于存储数据。我首先从安装spark开始，它运行良好。但是，当我开始安装Hadoop并设置JAVA_HOME环境变量时，HDFS起作用了，但是当我启动它时，spark崩溃并显示:Fileswasunexpectedatthistime.。当我删除JAVA_HOME时，Spark再次工作，但HDFS不是这样。这种情况怎么办？最佳答案您使用的是什么操作系统？你能显示你的JAVA_HOME路径吗？您的JAVA_HO

hadoop section JAVA_HOME apache-spark pyspark hdfs

hadoop - 与表锁定相关的 Spark Hive 插入

只是一个简单的问题。我正在尝试执行一个版本为1.6.0的Spark程序，该程序在Hive表上使用并发加载。在hiveContext.sql("insert...")中使用insert语句是一种方法，因为我想确保在写入过程中锁定表，因为从什么我在Spark文档中看到，当对DataFrame使用Saving操作时，无法确保表锁定和原子性。"SaveoperationscanoptionallytakeaSaveMode,thatspecifieshowtohandleexistingdataifpresent.Itisimportanttorealizethatthesesavemodes

hadoop Spark section strong code apache-spark hive

hadoop - 如何在 Java 中获取 Spark 执行器的工作目录？

这个问题已经存在:Copyfiles(config)fromHDFStolocalworkingdirectoryofeverysparkexecutor关闭5年前。我需要知道Spark执行器的当前工作目录URI/URL，以便我可以在作业执行之前将一些依赖项复制到那里。我如何进入Java？我应该调用什么api？

何在 hadoop section notice directory apache-spark

java - 加载到 Spark 数据集中的文件列表

假设我们有以下文件结构实时\temp\f1.txt,f2.txt,f3.txt我们已经在spark2中为这些文件创建了数据集。现在，在处理完这些文件后，我们需要从源位置(realtime\temp)删除这些文件所以我们需要这些我们创建数据集的所有文件的列表。提前致谢最佳答案您可以创建一个hadoop文件系统对象。然后列出目录中的文件。获得列表后，只需遍历文件即可将它们一一删除。importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.FileSyst

Spark java section allFileIterator hadoop apache-spark azure-blob-storage

java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件

我的问题类似于一个已经回答过的问题，该问题在scala中用于读取文件。ReadingfilesdynamicallyfromHDFSfromwithinsparktransformationfunctions我知道累加器使用它们将结果返回给驱动程序并写入驱动程序中的HDFS。在我们的用例中，每个执行程序的输出都很大，所以我正在寻找一种在Java转换中写入HDFS的方法。谢谢! 最佳答案终于找到了一个优雅的方式来实现这一目标。为hadoop配置创建一个广播变量Configurationconfiguration=JavaSparkC

spark java section Configuration stackoverflow hadoop apache-spark

hadoop - Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

我通过Ambari(HDP-2.6.2.0)设置了Hadoop/Spark集群。现在我的集群正在运行，我想向其中输入一些数据。我们内部有一个Elasticsearch集群(5.6版)。我想设置Elastic提供的ES-Hadoop连接器(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html)，这样我就可以将一些数据从Elastic转储到HDFS。我用JARS抓取了ZIP文件，并按照CERN博客文章中的说明进行操作:https://db-blog.web.cern.ch/blog/pr

Elasticsearch hadoop section https apache-spark ambari

hadoop - Spark 与 Hadoop 有何不同？

我正在尝试学习Spark框架。在其主页上https://spark.apache.org/据说比Hadoop框架还好。但后来他们说:Spark运行在Hadoop上……我真的不明白为什么它可以运行在Hadoop上，而它应该比Hadoop更好。谁能给我解释一下这两者之间的层次结构？最佳答案 ApacheHadoop(2.0)提供两个主要组件，(1)HDFSHadoop分布式文件系统，用于在集群上存储数据(即文件)，以及(2)YARN集群计算资源管理系统(即CPU/RAM)。Hadoop2.0:存储管理:HDFS计算资源管理:YARNH

何不 hadoop Spark section apache-spark

scala - Spark 提交成功运行，但通过 oozie 提交时无法连接到配置单元

我正在使用CDH5.9.0、Spark1.6和Scala2.10.0。我创建了一个scala和spark程序来创建一个表并将数据从文件加载到配置单元。当我使用sparksubmit运行它时，它完成了。但是同样的程序通过oozie提交时，会抛出下面的异常。以下是异常(exception)。LogType:stdoutLogUploadTime:FriOct2710:08:28-04002017LogLength:1725842017-10-2710:08:20,652INFO[main]yarn.ApplicationMaster(SignalLogger.scala:register(

配置单 scala java apache hadoop apache-spark cloudera oozie-workflow

hadoop - 在 Spark 中计算行时将行插入 Hive

假设我想构建一个Spark应用程序，我希望它能够在中途终止。我仍然想保留成功完成的分区中的数据。我试图通过将它插入Hive表来实现。在(PySpark)伪代码中:defmyExpensiveProcess(x):...udfDoExpensiveThing=udf(myExpensiveProcess,StringType())myDataFrame\.repartition(100)\.withColumn("HardEarnedContent",udfDoExpensiveThing("InputColumn"))\.write.insertInto("SomeExistingHi

行时中计 section code udfDoExpensiveThing hadoop apache-spark hive