草庐IT

apache-spark-2.3

全部标签

第一章 Linux系统服务:Apache安装及配置应用

第一章HTTP1.1http与html1.2浏览器访问网站的过程1.3HTTP工作机制1.4版本1.5HTTP方法1.6.http状态码1.7请求报文1.8响应报文第二章Apache的简单介绍1.Apache基础知识2.Apache配置文件位置三.LAMP架构1.LAMP平台概述2.LAMP各组件主要作用3.构建LAMP平台顺序四.Apache的三种工作模式1.prefork模式(默认模式)2.worker模式3.event模式五.LAMP架构与搭建论坛实验实验准备:将所需软件安装包下载到/opt目录下、关闭防火墙、配置本地yum源仓库(此处已安装不再演示)第一章HTTP1.1http与htm

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗?

我已经开始学习ApacheSpark,并且对该框架印象深刻。尽管一直困扰我的一件事是,在所有Spark演示中,他们都在谈论Spark如何缓存RDD,因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是,如果是这种情况,那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架?我确定我在这里遗漏了一些东西,您将能够向我指出一些文档,这些文档可以让我更多地了解spark。 最佳答案 在内存计算中缓存+对于spark来说绝对是个大事情,但是还有其他事情。RDD(Resilient

hadoop - Apache PIG 中是否有类似条件 IF 的运算符?

实际上,我正在编写PIG脚本,并希望在满足其中一个条件时执行一组语句。我设置了一个变量并检查了该变量的某些值。假设ifflag==0thenA=LOAD'file'usingPigStorage()as(f1:int,....);B=...;C=....;elseagainsomePigLatinstatements我可以在PIG脚本中执行此操作吗?如果是,那我该怎么做?谢谢。 最佳答案 是的,Pig确实提供了if-then-else结构,但它没有按照您要求的方式使用。pig的if-then-elseisanarithmeticop

hadoop - Apache Pig 中的连接错误

我正在使用Hadoop2.0.5运行ApachePig.11.1。我在Pig中运行的大多数简单作业都运行良好。但是,每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时,我都会收到以下连接错误:2013-07-2913:24:08,591[main]INFOorg.apache.hadoop.mapred.ClientServiceDelegate-Applicationstateiscompleted.FinalApplicationStatus=SUCCEEDED.Redirectingtojobhistoryserver013-07-2911:57:29,421[mai

hadoop - Apache Spark 如何知道 HDFS 数据节点?

假设我对托管在HDFS中的文件执行一些Spark操作。像这样:varfile=sc.textFile("hdfs://...")valitems=file.map(_.split('\t'))...因为在Hadoop世界中,代码应该放在数据所在的地方,对吗?所以我的问题是:Sparkworkers如何知道HDFS数据节点?Spark如何知道在哪些数据节点上执行代码? 最佳答案 Spark重用Hadoop类:当您调用textFile时,它会创建一个TextInputFormat它有一个getSplits方法(拆分大致是一个分区或blo

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个?

我是并行计算的新手,刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如,我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是,我还看到了MPI(MR-MPI)上的MapReduce实现,它不提供容错,但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效,并且似乎使用核外内存处理大数据。相反,新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

hadoop - 在 Yarn 集群上运行 Spark 作业

我想在HadoopYARN集群模式下运行我的spark作业,我正在使用以下命令:spark-submit--masteryarn-cluster--driver-memory1g--executor-memory1g--executor-cores1--classcom.dc.analysis.jobs.AggregationJobsparkanalitic.jarparam1param2param3我在下面收到错误,请提示出了什么问题,命令是否正确。我正在使用CDH5.3.1。Diagnostics:Applicationapplication_1424284032717_0066f

apache-spark - 如何读取 Spark 中的嵌套集合

我有一个Parquet表,其中一列是,array>可以使用LATERALVIEW语法在Hive中针对此表运行查询。如何将此表读入RDD,更重要的是如何在Spark中过滤、映射此嵌套集合?在Spark文档中找不到对此的任何引用。提前感谢您提供任何信息!附言。我觉得在桌面上提供一些统计数据可能会有所帮助。主表中的列数~600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数约为35。 最佳答案 嵌套集合没有什么神奇之处。Spark将以相同的方式处理RDD[(String,String)]和RDD[(String,Seq

hadoop - Apache Pig 和 Apache Hive 有什么区别?

Pig和Hive之间的确切区别是什么?我发现两者具有相同的功能意义,因为它们用于完成相同的工作。唯一不同的是实现方式。那么什么时候使用什么技术呢?是否有任何规范可以清楚地表明两者在适用性和性能方面的差异? 最佳答案 ApachePig和Hive是两个位于Hadoop之上的项目,它们为使用Hadoop的MapReduce库提供了更高级的语言。ApachePig提供了一种脚本语言来描述读取、过滤、转换、连接和写入数据等操作——这正是MapReduce最初设计的目的。Pig不是用直接使用MapReduce的数千行Java代码来表达这些操作

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))?

我将HiveContext与SparkSQL一起使用,并且我正在尝试连接到远程Hive元存储,设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数?如果是这样,要使用什么Spark配置? 最佳答案 对于Spark1.x,您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp