$Spark

hadoop - Apache Drill 与 Spark

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭去年。Improvethisquestion我对ApacheSpark和Spark-SQL有一定的了解。最近我发现了ApacheDrill项目。您能描述一下它们之间最重要的优点/区别是什么吗？我已经读过FastHadoopAnalytics(ClouderaImpalavsSpark/SharkvsApacheDrill)但这个话题对我来说仍然不清楚。

scala - Spark : long delay between jobs

所以我们正在运行提取数据并进行一些扩展数据转换并写入几个不同文件的spark作业。一切都运行良好，但我在资源密集型作业完成和下一个作业开始之间出现随机的扩展延迟。在下图中，我们可以看到安排在17:22:02的作业用了15分钟才完成，这意味着我预计下一个作业将安排在17:37:02左右。但是，下一个工作安排在22:05:59，即工作成功后+4小时。当我深入研究下一个作业的sparkUI时，它显示(Spark1.6.1与Hadoop2)更新:我可以确认大卫在下面的回答是关于如何在Spark中处理IO操作的，这有点出乎意料。(考虑到排序和/或其他操作，文件写入本质上是在幕后“收集”是有意义的

between scala section noreferrer noopener hadoop apache-spark

scala - Spark : check your cluster UI to ensure that workers are registered

我在Spark中有一个简单的程序:/*SimpleApp.scala*/importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectSimpleApp{defmain(args:Array[String]){valconf=newSparkConf().setMaster("spark://10.250.7.117:7077").setAppName("SimpleApplication").set("spark.cores.m

registered cluster section ratingsFile 34 scala hadoop apache-spark cloudera cloudera-manager

hadoop - Spark 2.0 弃用 'DirectParquetOutputCommitter' ，没有它怎么活？

最近我们从“HDFS上的EMR”迁移到“S3上的EMR”(启用了一致View的EMRFS)，我们意识到与HDFS相比，Spark“SaveAsTable”(Parquet格式)写入S3的速度慢了约4倍但我们找到了使用DirectParquetOutputCommitter-[1]w/Spark1.6的解决方法。S3缓慢的原因-我们不得不支付所谓的Parquet税-[2]默认输出提交器写入临时表并稍后重命名它，而S3中的重命名操作非常昂贵此外，我们确实了解使用“DirectParquetOutputCommitter”的风险，即在启用推测任务的情况下可能会发生数据损坏。现在有了Spark

DirectParquetOutputCommitter amp section https hadoop apache-spark amazon-s3 amazon-emr parquet

scala - 如何使用 Apache Spark 计算准确的中位数？

这page包含一些统计函数(均值、标准差、方差等)但不包含中位数。如何计算准确的中位数？最佳答案需要对RDD进行排序，取两个元素的中间或者平均值。这是RDD[Int]的例子:importorg.apache.spark.SparkContext._valrdd:RDD[Int]=???valsorted=rdd.sortBy(identity).zipWithIndex().map{case(v,idx)=>(idx,v)}valcount=sorted.count()valmedian:Double=if(count%2==0

Apache scala section sorted count apache-spark hadoop

hadoop - Spark RDD - 分区总是在 RAM 中吗？

我们都知道Spark在内存中进行计算。我只是对以下内容感到好奇。如果我从HDFS在我的pySparkshell中创建10个RDD，这是否意味着所有这10个RDD的数据都将驻留在SparkWorkers内存中？如果不删除RDD，它会永远存在内存中吗？如果我的数据集(文件)大小超过可用RAM大小，数据将存储在哪里？最佳答案 IfIcreate10RDDinmypySparkshellfromHDFS,doesitmeanallthese10RDDdatawillresideonSparkMemory?是的，所有10个RDD数据都将散布

hadoop Spark strong RDD blockquote apache-spark pyspark hdfs

database - Spark : run InputFormat as singleton

我正在尝试将键值数据库集成到Spark中并有一些问题。我是Spark初学者，阅读了很多书并运行了一些示例，但什么也没有复杂。场景:我正在使用小型hdfs集群将传入消息存储在数据库中。集群有5个节点，数据被拆分为5个分区。每个分区存储在单独的数据库文件中。因此每个节点都可以处理它自己的数据分区。问题:数据库软件的接口(interface)基于JNI，数据库本身是在C中实现。由于技术原因，数据库软件可以维护一次只有一个事件连接。只能有一个JVM进程已连接到数据库。由于这个限制，读取和写入数据库必须去通过相同的JVM进程。(背景信息:数据库嵌入到流程中。它是基于文件的，并且一次只能有一个进程

InputFormat singleton section strong Spark database hadoop apache-spark

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗？

我已经开始学习ApacheSpark，并且对该框架印象深刻。尽管一直困扰我的一件事是，在所有Spark演示中，他们都在谈论Spark如何缓存RDD，因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是，如果是这种情况，那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架？我确定我在这里遗漏了一些东西，您将能够向我指出一些文档，这些文档可以让我更多地了解spark。最佳答案在内存计算中缓存+对于spark来说绝对是个大事情，但是还有其他事情。RDD(Resilient

map-reduce caching section Spark hadoop apache-spark

hadoop - Apache Spark 如何知道 HDFS 数据节点？

假设我对托管在HDFS中的文件执行一些Spark操作。像这样:varfile=sc.textFile("hdfs://...")valitems=file.map(_.split('\t'))...因为在Hadoop世界中，代码应该放在数据所在的地方，对吗？所以我的问题是:Sparkworkers如何知道HDFS数据节点？Spark如何知道在哪些数据节点上执行代码？最佳答案 Spark重用Hadoop类:当您调用textFile时，它会创建一个TextInputFormat它有一个getSplits方法(拆分大致是一个分区或blo

hadoop Apache section code strong apache-spark hdfs

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个？

我是并行计算的新手，刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如，我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是，我还看到了MPI(MR-MPI)上的MapReduce实现，它不提供容错，但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效，并且似乎使用核外内存处理大数据。相反，新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

mdash vs MapReduce noreferrer noopener hadoop parallel-processing mpi

82 83 848586 87 88