spark-ml

hadoop - 从 Oozie (CDH) 运行 Spark2

我正在尝试从Oozie运行一个spark作业(使用spark2-submit)，所以这个作业可以按计划运行。当运行我们从命令行在我们的服务帐户(不是Yarn)下运行shell脚本时，作业运行得很好。当我们将它作为Oozie工作流运行时，会发生以下情况:17/11/1612:03:55ERRORspark.SparkContext:ErrorinitializingSparkContext.org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=WRITE,inode="/us

hadoop - zeppelin standalone 用于 hdfs 和 spark 的学习目的我需要安装什么？

我不得不说我有点糊涂了，我没有超过apachezeppelindocumentation我有以下问题。我的最终目标是让本地zeppelin与本地hdfs和本地spark一起工作，以进行简单的练习，所需的安装最少。问题齐柏林飞艇安装就足够了吗？是否包括本地hdfs、spark的组件？如果没有，我还需要安装什么才能拥有本地spark和hdfs？我是否需要安装本地hdfs(假设我想使用hdfs)以及是否需要安装本地spark(假设我想使用本地spark)。谢谢最佳答案安装Zeppelin，看是否自带Spark解释器。我想是的，我知道t

standalone zeppelin section strong spark hadoop apache-spark apache-zeppelin

在 Eclipse 中运行 Spark Word Count 时出现 Java 错误

当我尝试使用Eclipse在SparkJava中运行一个简单的字数统计时，我在一个新的弹出式Java虚拟机启动器窗口中收到Java错误，其中显示-AJavaExceptionhasoccurred.java-versionJavaVirtualMachineLauncherjavaversion"1.7.0_80"Java(TM)SERuntimeEnvironment(build1.7.0_80-b15)JavaHotSpot(TM)64-BitServerVM(build24.80-b11,mixedmode)代码如下:packagecom.fd.spark;importjava.

中运时出 String Integer import java hadoop apache-spark word-count jdk1.7

python - 如果没有可用的指定分区路径，SPARK SQL 将失败

我在EMR中使用HiveMetastore。我可以通过HiveSQL手动查询表。但是当我在SparkJob中使用同一个表时，它说Inputpathdoesnotexist:s3://Causedby:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:s3://....我已经在s3://..中删除了上面的分区路径，但它仍然可以在我的Hive中工作，而无需在表级别删除分区。但无论如何它在pyspark中不起作用这是我的完整代码frompysparkimportSparkContext,HiveConte

python SPARK code section 34 hadoop apache-spark hive pyspark

sql-server - 通过 Spark 将 csv 文件加载到现有的 HIVE 表

下面是我编写的连接到RDBMS的代码，然后创建临时表，对该临时表执行SQL查询，通过databricks模块将SQL查询输出保存为.csv格式。frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportSQLContext,RowsqlContext=SQLContext(sc)frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)df=sqlContext.read.format("jdbc").option(

sql-server server 34 section option hadoop hive pyspark databricks

hadoop - 尽管 hadoop 访问有效，但在 EMR 上将 spark 与 s3 结合使用失败

这个问题在这里已经有了答案:SparkreadfilefromS3usingsc.textFile("s3n://...)(14个答案)关闭4年前。我正在尝试访问s3://路径spark.read.parquet("s3://")我得到了这个错误Py4JJavaError:Anerroroccurredwhilecallingo31.parquet.:java.io.IOException:NoFileSystemforscheme:s3但是，运行以下行hadoopfs-ls有效...所以我猜这可能是hadoop和spark之间的配置问题如何解决？编辑阅读建议的答案后，我尝试将硬编码的

hadoop 尽管 section code spark apache-spark amazon-s3 amazon-emr

hadoop - spark如何写入HBASE

我有一个Spark作业，它读取一些时间序列数据并使用HBASE客户端API将其推送到HBASE。我正在执行这个Spark作业在10节点集群上。首先说，当spark启动时，它选择machine1、machine2、machine3作为它的执行者。现在，当作业向HBASE插入一行时。以下是我对其功能的理解。基于行键，将选择一个特定区域(来自META)，该行将被推送到该RegionServer的memstore和WAL，一旦memestore已满，它将被刷新到磁盘。现在如果假设一个特定的行正在由machine2上的执行程序处理，而处理要向其进行放置的区域的区域服务器在machine6上。数据

hadoop HBASE section machine apache-spark hdfs

Java Spark 将 HIVE View 重制为 INSERT

我有以下从HDFS读取JSON文件并使用Spark将其输出为HIVEView的Java代码。packageorg.apache.spark.examples.sql.hive;importjava.io.File;importjava.io.Serializable;importjava.util.ArrayList;importjava.util.List;importorg.apache.spark.api.java.function.MapFunction;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.

INSERT Spark import section java hadoop apache-spark hive

hadoop - 如何将大部分数据合并到 spark/Hive 中的单个目录中

我有一个要求，对大量数据进行分区并将其插入到Hive中。为了绑定(bind)这些数据，我使用了DF.Coalesce(10)。现在我想将这个分区数据绑定(bind)到单个目录，如果我使用DF.Coalesce(1)性能会降低吗？或者我有任何其他流程可以这样做吗？最佳答案据我了解，您正在尝试确保每个分区的文件数较少。因此，通过使用coalesce(10)，每个分区最多可获得10个文件。我会建议使用repartition($"COL")，这里COL是用于分区数据的列。这将确保您的“巨大”数据根据HIVE中使用的分区列进行拆分。df.

大部 hadoop section code stackoverflow apache-spark dataframe hive

java - 如何从 Spark 中的 Slaves 内存创建 RDD？

我知道这听起来可能很傻，但是有什么方法可以从当前位于集群从属内存中的文件创建RDD吗？我知道要创建一个RDD，我们必须指定存储文件的路径/hdfs路径。但我很好奇我是否可以在Javaapplications之间复制对象并以相同的名称将对象直接放入奴隶的内存中，有没有办法用这些文件创建RDD和/或以分布式方式工作？提前致谢! 最佳答案简短的回答是否定的。“奴隶”根本不参与计算。只负责资源管理部分。另一方面，worker本身并不存在。它们与应用程序相关联，因此在它之外没有“当前状态”。您可以做的是创建虚拟RDD并在对它们调用函数时加载

Slaves Spark section stackoverflow questions java hadoop apache-spark

186 187 188189190 191 192