草庐IT

spark-framework

全部标签

java - Spark RDD- map 与 mapPartitions

我通读了map和mapPartitions之间的理论差异,并且很清楚何时在各种情况下使用它们。但我下面描述的问题更多是基于GCActivity和内存(RAM)。请阅读下面的问题:-=>我写了一个映射函数来将Row转换为String。因此,RDD[org.apache.spark.sql.Row]的输入将映射到RDD[String]。但是使用这种方法,将为RDD的每一行创建映射对象。因此,创建如此大量的对象可能会增加GCActivity。=>为了解决上面的问题,我想到了使用mapPartitions。因此,对象的数量等于分区的数量。mapPartitions将Iterator作为输入并接

java - Spark - 使用不可序列化的成员序列化对象

我将在Spark的上下文中提出这个问题,因为这就是我面临的问题,但这可能是一个普通的Java问题。在我们的spark作业中,我们有一个Resolver需要在我们所有的worker中使用(它在udf中使用)。问题是它不可序列化,我们无法将其更改为可序列化。解决方案是将其作为另一个可序列化的类的成员。所以我们最终得到:publicclassAnalyzerimplementsSerializable{transientResolverresolver;publicAnalyzer(){System.out.println("InitializingaResolver...");resolv

java - Play Framework 2.0 中公共(public)字段的使用

在PlayFramework1.x中,惯例是在Java类上使用公共(public)字段。这样做的理由是因为PlayPropertiesEnhancer的工作方式如下所述:http://www.playframework.org/documentation/1.2.4/model简而言之,公共(public)字段是“好的”,因为Play会在运行时自动生成setter和getter。这对我来说很有意义,还有其他问题可以解决这个问题。PlayFramework2.0的工作方式截然不同。没有“属性模拟”功能。也许他们正在考虑稍后添加这个,但我找不到任何建议。没有属性模拟,使用所有公共(publ

java - Spark 1.4.0 java.lang.NoSuchMethodError : com. google.common.base.Stopwatch.elapsedMillis()J

我正在使用spark1.4.0/hadoop2.6.0(仅适用于hdfs)并且在运行ScalaSparkPageRank示例时(examples/src/main/scala/org/apache/spark/examples/SparkPageRank.scala),我遇到以下错误:Exceptioninthread"main"java.lang.NoSuchMethodError:com.google.common.base.Stopwatch.elapsedMillis()Jatorg.apache.hadoop.mapred.FileInputFormat.listStatus

Spark---Master启动及Submit任务提交

一、SparkMaster启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后,首先调用$SPARK_HOME/sbin/start-all.sh,start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本,在start-master.sh脚本中可以看到启动Master角色的主类:“org.apache.spark.deploy.master.Master”。在对应的start-slaves.sh脚本中又调用了start-slave.sh脚本,在star-slave.sh脚本中可以看到启动Worker角色的主类:

java - 我应该考虑 Simple XML Framework for Java 吗?

最近SimpleXMLFramework获得了人气和一些sites正在展示它。我正在考虑用一个新框架替换ApacheXerces-J,并且我正在考虑将Simple作为它的继任者。您有使用Simple的经验吗?它的优点和缺点是什么?是否推荐与企业软件一起使用/在servlet容器或应用程序服务器中使用? 最佳答案 JAXB是enterprisestandard用于将对象与XML相互转换。有很多实现:Metro(JavaSE6中包含的引用实现),EclipseLinkMOXy(我是技术主管),ApacheJaxMe(不再维护)等就企业而

java - 如何在 Play Framework 2.0 中使用 OAuth 2

所以我正在使用scribe连接到Facebook(OAuth2)。但是我在获取授权token时遇到问题。在Play'swebsite他们说"Version2issimpleenoughtobeimplementedeasilywithoutlibraryorhelpers,".但是,我不太确定该怎么做!我尝试更改我的路由文件,将key发送到构建的方法。GET/slivr_auth/*namecontrollers.Application.getKey(name)但是,授权key包含一个“?”在url中,所以我无法将其捕获为字符串。如有任何帮助或建议,我们将不胜感激!

第五:Spark启动!

一.什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发的通用内存并行计算框架Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的

java - 使用 Spark Framework 为静态文件设置特定的 URL

我正在使用Spark为网页提供服务。对于静态文件,我将Spark初始化为statedhere:所以我有这个结构:/src/main/resources/public/|--foo/|--css/||--bootstrap.css|--js/|...|--img/...我制作了foo文件夹来做个小把戏,因为我的网页位于/foourl下。像这样:http://www.example.com/foo/index所以我的静态文件是这样加载的,例如:http://www.example.com/foo/css/bootstrap.css我现在想要的是拥有这个路径变量。因为我有不同的环境,例如,如

java - 无法将 Spring Boot Java 应用程序提交到 Spark 集群

我使用SpringBoot开发了一个Web应用程序,它使用ApacheSpark查询来自不同数据源(如Oracle)的数据。一开始我打算使用spark-submit脚本不提交就运行应用,但是好像不提交jar就连接不上Master集群了。我已经成功生成了一个uberjar,其中包含我正在使用的所有依赖项和子项目,但似乎Spark不喜欢SpringBoot应用程序。当我尝试提交应用程序时,spark显示以下错误:Exceptioninthread"main"java.lang.IllegalArgumentException:LoggerFactoryisnotaLogbackLogger