草庐IT

sparking

全部标签

java - SPARK 转 HBase 写入

我的SPARK程序中的流程如下:Driver-->Hbaseconnectioncreated-->BroadcasttheHbasehandle现在从执行者那里,我们获取这个句柄并尝试写入hbase在驱动程序中,我正在创建HBaseconf对象和连接对象,然后通过JavaSPARK上下文广播它,如下所示:SparkConfsparkConf=JobConfigHelper.getSparkConfig();Configurationconf=newConfiguration();UserGroupInformation.setConfiguration(conf);jsc=newJa

hadoop - Spark 正在洗牌大量数据

我写了一个spark作业。如下所示:publicclassTestClass{publicstaticvoidmain(String[]args){StringmasterIp=args[0];StringappName=args[1];StringinputFile=args[2];Stringoutput=args[3];SparkConfconf=newSparkConf().setMaster(masterIp).setAppName(appName);JavaSparkContextsparkContext=newJavaSparkContext(conf);JavaRDDr

scala - 运行 Spark 应用程序时获取 java.lang.ClassNotFoundException

我是Spark(Scala)的新手,我正在尝试通过sparksubmit运行一个spark应用程序。不幸的是,我遇到了java.lang.ClassNotFoundException异常。这是我的spark提交命令:./spark-submit--class"spark.phoenix.a"--masterlocal--deploy-modeclient/home/ec2-user/phoenix-0.0.1-SNAPSHOT.jar这是我的异常(exception):java.lang.ClassNotFoundException:spark.phoenix.aatjava.net.

hadoop - 将大量 Spark 数据帧合并为一个

我在for循环中使用满足不同条件的不同查询超过1500次来查询缓存的配置单元临时表。我需要在循环内使用unionAll将它们全部合并。但是由于spark跟不上RDD血统,我得到了stackoverflow错误。伪代码:df=[fromahivetable]tableA=[fromahivetable]tableA.registerTempTable("tableA")HiveContext.sql('CACHETABLEtableA')foriinrange(0,2000):if(list[0]['column1']=='xyz'):df1=querysomethingfromtabl

java - 为什么只有少数节点在 apache spark on yarn 中工作?

我有7个数据节点和1个名称节点。我们的每个节点都有32Gb的内存和20个内核。所以我将容器内存设置为30Gb,将容器虚拟CPU内核设置为18。然而,只有三个数据节点工作,其余数据节点不工作。下面的代码是我的设置。/opt/spark/bin/spark-submit\--masteryarn\--deploy-modecluster\--driver-memory4g\--driver-cores18\--executor-memory8g\--executor-cores18\--num-executors7\Java代码SQLContextsqlc=newSQLContext(sp

hadoop - 除了为日志输出挖掘日志文件之外,有没有办法获取 Spark 跟踪 URL?

我有一个创建Sparksession的Scala应用程序,并且我已经设置了使用SparkRESTAPI的健康检查。Spark应用程序本身在HadoopYarn上运行。当前通过读取创建Sparksession时生成的Spark日志记录来检索RESTAPIURL。这在大多数情况下都有效,但在我的应用程序中存在一些边缘情况,它不能很好地工作。有谁知道另一种获取此跟踪URL的方法? 最佳答案 “您可以通过从YARN的配置和应用程序ID中读取yarn.resourcemanager.webapp.address值(它在监听器总线上发送的事件和

hadoop - 使用spark Java的序列文件读取问题

我正在尝试使用spark读取hive生成​​的序列文件。当我尝试访问该文件时,我面临org.apache.spark.SparkException:作业因阶段失败而中止:任务不可序列化:java.io.NotSerializableException:我已经尝试了解决这个问题的方法,比如使类可序列化,但我仍然面临这个问题。我在这里写代码片段,请让我知道我在这里遗漏了什么。是因为BytesWritable数据类型还是其他导致问题的原因。JavaPairRDDfileRDD=javaCtx.sequenceFile("hdfs://path_to_the_file",BytesWritab

scala - Spark 流序列化错误

我在spark-streaming应用程序中遇到序列化错误。下面是我的驱动程序代码:packagecom.testimportorg.apache.spark._importorg.apache.spark.streaming._importorg.json.JSONObject;importjava.io.SerializableobjectSparkFillerextendsSerializable{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setAppName("SparkFiller").setM

hadoop - 使用 spark thrift 服务的 s3 位置创建/访问配置单元外部表的问题

我已经使用hadoop-credentialapi在jceks文件中配置了s3key(访问key和secretkey)。用于相同的命令如下:hadoop凭据创建fs.s3a.access.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jcekshadoop凭据创建fs.s3a.secret.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jceks然后,我使用beeline打开到SparkThriftServer的连接,并在连接字符串中传递jceks文件路径,如下所

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存,但是当我转到RMUI时,它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5,在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题,查看:http://www.wdong.org/spark-on-yarn-wher