apache-spark-2.3

第一章 Linux系统服务：Apache安装及配置应用

第一章HTTP1.1http与html1.2浏览器访问网站的过程1.3HTTP工作机制1.4版本1.5HTTP方法1.6.http状态码1.7请求报文1.8响应报文第二章Apache的简单介绍1.Apache基础知识2.Apache配置文件位置三.LAMP架构1.LAMP平台概述2.LAMP各组件主要作用3.构建LAMP平台顺序四.Apache的三种工作模式1.prefork模式（默认模式）2.worker模式3.event模式五.LAMP架构与搭建论坛实验实验准备：将所需软件安装包下载到/opt目录下、关闭防火墙、配置本地yum源仓库（此处已安装不再演示）第一章HTTP1.1http与htm

配置安装 xff br xff0c linux 服务器运维

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗？

我已经开始学习ApacheSpark，并且对该框架印象深刻。尽管一直困扰我的一件事是，在所有Spark演示中，他们都在谈论Spark如何缓存RDD，因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是，如果是这种情况，那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架？我确定我在这里遗漏了一些东西，您将能够向我指出一些文档，这些文档可以让我更多地了解spark。最佳答案在内存计算中缓存+对于spark来说绝对是个大事情，但是还有其他事情。RDD(Resilient

map-reduce caching section Spark hadoop apache-spark

hadoop - Apache PIG 中是否有类似条件 IF 的运算符？

实际上，我正在编写PIG脚本，并希望在满足其中一个条件时执行一组语句。我设置了一个变量并检查了该变量的某些值。假设ifflag==0thenA=LOAD'file'usingPigStorage()as(f1:int,....);B=...;C=....;elseagainsomePigLatinstatements我可以在PIG脚本中执行此操作吗？如果是，那我该怎么做？谢谢。最佳答案是的，Pig确实提供了if-then-else结构，但它没有按照您要求的方式使用。pig的if-then-elseisanarithmeticop

运算符 hadoop section noreferrer noopener apache-pig

hadoop - Apache Pig 中的连接错误

我正在使用Hadoop2.0.5运行ApachePig.11.1。我在Pig中运行的大多数简单作业都运行良好。但是，每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时，我都会收到以下连接错误:2013-07-2913:24:08,591[main]INFOorg.apache.hadoop.mapred.ClientServiceDelegate-Applicationstateiscompleted.FinalApplicationStatus=SUCCEEDED.Redirectingtojobhistoryserver013-07-2911:57:29,421[mai

hadoop Apache section RetryUpToMaximumCountWithFixedSle apache-pig

hadoop - Apache Spark 如何知道 HDFS 数据节点？

假设我对托管在HDFS中的文件执行一些Spark操作。像这样:varfile=sc.textFile("hdfs://...")valitems=file.map(_.split('\t'))...因为在Hadoop世界中，代码应该放在数据所在的地方，对吗？所以我的问题是:Sparkworkers如何知道HDFS数据节点？Spark如何知道在哪些数据节点上执行代码？最佳答案 Spark重用Hadoop类:当您调用textFile时，它会创建一个TextInputFormat它有一个getSplits方法(拆分大致是一个分区或blo

hadoop Apache section code strong apache-spark hdfs

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个？

我是并行计算的新手，刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如，我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是，我还看到了MPI(MR-MPI)上的MapReduce实现，它不提供容错，但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效，并且似乎使用核外内存处理大数据。相反，新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

mdash vs MapReduce noreferrer noopener hadoop parallel-processing mpi

hadoop - 在 Yarn 集群上运行 Spark 作业

我想在HadoopYARN集群模式下运行我的spark作业，我正在使用以下命令:spark-submit--masteryarn-cluster--driver-memory1g--executor-memory1g--executor-cores1--classcom.dc.analysis.jobs.AggregationJobsparkanalitic.jarparam1param2param3我在下面收到错误，请提示出了什么问题，命令是否正确。我正在使用CDH5.3.1。Diagnostics:Applicationapplication_1424284032717_0066f

hadoop Spark java section apache-spark hdfs hadoop-yarn cloudera

apache-spark - 如何读取 Spark 中的嵌套集合

我有一个Parquet表，其中一列是,array>可以使用LATERALVIEW语法在Hive中针对此表运行查询。如何将此表读入RDD，更重要的是如何在Spark中过滤、映射此嵌套集合？在Spark文档中找不到对此的任何引用。提前感谢您提供任何信息!附言。我觉得在桌面上提供一些统计数据可能会有所帮助。主表中的列数~600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数约为35。最佳答案嵌套集合没有什么神奇之处。Spark将以相同的方式处理RDD[(String,String)]和RDD[(String,Seq

apache-spark apache code outers scala apache-spark-sql nested parquet lateral-join

hadoop - Apache Pig 和 Apache Hive 有什么区别？

Pig和Hive之间的确切区别是什么？我发现两者具有相同的功能意义，因为它们用于完成相同的工作。唯一不同的是实现方式。那么什么时候使用什么技术呢？是否有任何规范可以清楚地表明两者在适用性和性能方面的差异？最佳答案 ApachePig和Hive是两个位于Hadoop之上的项目，它们为使用Hadoop的MapReduce库提供了更高级的语言。ApachePig提供了一种脚本语言来描述读取、过滤、转换、连接和写入数据等操作——这正是MapReduce最初设计的目的。Pig不是用直接使用MapReduce的数千行Java代码来表达这些操作

Apache hadoop section MapReduce hive apache-pig

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))？

我将HiveContext与SparkSQL一起使用，并且我正在尝试连接到远程Hive元存储，设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数？如果是这样，要使用什么Spark配置？最佳答案对于Spark1.x，您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp

节俭何在 section 34 HiveContext apache-spark hive apache-spark-sql