草庐IT

apache-spark-1.6

全部标签

hadoop - 启动 spark-submit 时出错,因为 avro

我正在用spark创建一个应用程序。我在Hadoop2的HDFS中使用avro文件。我使用maven并像这样包含avro:org.apache.avroavro-mapred1.7.6hadoop2我做了一个单元测试,当我使用mvntest时,一切正常。但是当我用spark启动时提交没有!我有这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure:Losttask1.0inst

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS,下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中?我应该将它复制到名称节点还是数据节点?dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案 您使用的是什么版本

maven - Apache Hadoop 2.6.0 源代码编译问题

我在64位bitcentos6.5中编译Hadoop2.6.0并收到以下错误消息。谁能帮帮我?环境细节:Jave版本:1.7.0_71-b14Maven版本:ApacheMaven3.2.5开启SSL版本:OpenSSL1.0.x协议(protocol)版本:libprotoc2.5.0Cmake版本:2.8.12.2错误消息详情如下:[INFO]ReactorSummary:[INFO][INFO]ApacheHadoopMain.................................SUCCESS[2.259s][INFO]ApacheHadoopProjectPOM..

java - org.apache.hadoop.ipc.RemoteException 错误

我想将一些文件从Windows机器复制到在SingleNode上的ubuntu14.04.02上运行的hadoop。这是用于此目的的代码;Configurationconfiguration=newConfiguration();configuration.addResource(newPath("/core-site.xml"));configuration.addResource(newPath("/mapred-site.xml"));FileSystemhdfs=FileSystem.get(configuration);PathhomeDirectory=hdfs.getHo

hadoop - Spark Standalone 与 python 和 scala 的行为不同

我正在探索Spark,发现与SparkStandalone(简称SS)不一致。这里有一些关于我的集群的线索:d125.dtvhadooptest->最佳数据节点d124.dtvhadooptestd211.dtvhadooptest->最差数据节点我正在通过python和scala运行完全相同的作业。当作业作为python脚本提交时,SS在执行程序进程之间几乎平等地共享任务。但是,当作业作为scala脚本提交时,SS会异构地共享任务。我想截图会更好地解释它:python:斯卡拉:使用scala,作业运行速度明显加快(大约55分钟)。使用python时,大约90分钟即可完成作业。我认为造

scala - 使用 Spark 从目录中读取多个文件

我正在尝试解决这个问题problem在kaggle使用spark:输入的层次结构是这样的:drivers/{driver_id}/trip#.csve.g.,drivers/1/1.csvdrivers/1/2.csvdrivers/2/1.csv我想读取父目录"drivers",对于每个子目录,我想创建一个pairRDD,键为(sub_directory,file_name)和值作为文件的内容我检查了this链接并尝试使用valtext=sc.wholeTextFiles("drivers")text.collect()失败并出现错误:java.lang.ArrayIndexOutO

java - Spark Java scala 错误

嘿,我想在我的Java项目中使用spark:我已经将此依赖项添加到我的pom文件中:org.apache.sparkspark-core_2.111.4.0我试过这段代码:importorg.apache.spark.api.java.JavaSparkContext;publicclasssparkSQL{publicvoidquery(){JavaSparkContextsc=newJavaSparkContext();}}我在我的main中调用了这个函数,但我得到了这个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError

scala - Spark : how to include dependencies with build/sbt compile

我是spark的新手,但正在尝试进行一些开发。我正在遵循thesparkdeveloperpage中的“减少构建时间”说明.创建正常程序集后,我编写了一些依赖于一个特定jar的类。我在spark-shell中测试了我的包,通过定义SPARK_CLASSPATH,我已经能够在其中包含我的jar,但问题在于实际编译我的代码。我想要实现的是在编译我添加的包时包含那个jar(使用build/sbtcompile)。我可以通过在build/sbt文件或sbt-launch-lib.bash中添加我的jar路径来做到这一点吗?如果可以的话,怎么做?(旁注:我还不想将jar包含在程序集中,因为我对它

hadoop - 无法启动配置单元外壳——无法实例化 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

几个月前我安装了hive0.14。它运行良好。但是当我现在开始时,它会让我陷入错误。安装hive后,我只在我的ubuntu机器上安装了spark、mysql、hbase,但是hbase也没有启动。认为java可能是一个问题,因为我安装了两个jdk版本,卸载了整个java包并安装了oraclejava7并将我的JAVA_HOME指向/usr/lib/jvm/java-7-oracle。这并没有解决我的问题所以安装一个新的hive版本1.0.1,这也不利于我。我在谷歌上搜索了很多相同的错误并尝试应用它但没有运气。我不确定最近安装的spark是否导致我不匹配。有人可以帮我解决这个问题。以下是

java - 如何从单独的 java 程序中在集群上运行 spark 程序?

我有一个运行单独的小型spark程序的java程序,那么如何让我的java程序在集群上运行小型spark模块/程序?例如:我有一个程序名executor(java程序)。和一些spark程序--添加两个数字--减去两个数字那么我如何从我的java程序(在这种情况下为执行程序)在Cluster上运行这些spark程序。谢谢!!! 最佳答案 检查sparkjobserver项目,让您创建共享上下文并从rest接口(interface)执行作业:https://github.com/spark-jobserver/spark-jobser