apache-spark-2.3

hadoop - Apache Hadoop 与谷歌大数据

任何人都可以向我解释ApacheHadoop与ApacheHadoop之间的主要区别吗谷歌大数据哪个更好(hadoop或google大数据)。最佳答案简单的答案是..这取决于你想用你的数据做什么。Hadoop用于海量数据存储和数据的批处理。它非常成熟、流行，并且有很多库支持这项技术。但是如果你想做实时分析，对你的数据的查询hadoop不适合它。Google的BigQuery就是专门为解决这个问题而开发的。您可以使用Google的大查询对您的数据进行实时处理。您可以使用BigQuery代替Hadoop，或者您也可以将BigQuer

大数 hadoop strong section comparison hdfs bigdata gfs

scala - Cluster 模式下使用 Spark 写入文件到本地系统

我知道这是一种使用Spark的奇怪方式，但我正在尝试使用Spark将数据帧保存到本地文件系统(不是hdfs)，即使我处于集群模式。我知道我可以使用客户端模式，但我确实想在集群模式下运行并且不关心哪个节点(3个中的)应用程序将作为驱动程序运行。下面的代码是我正在尝试做的伪代码。//createdataframevaldf=Seq(Foo("John","Doe"),Foo("Jane","Doe")).toDF()//saveittothelocalfilesystemusing'file://'becauseitdefaultstohdfs://df.coalesce(1).rdd.s

Cluster scala code apache java hadoop apache-spark

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务，它在哪个节点上运行？主节点和驱动节点可能是同一台机器吗？我假设某处应该有一条规则说明这两个节点应该不同？如果Driver节点出现故障，谁负责重新启动应用程序？究竟会发生什么？即主节点、集群管理器和工作节点将如何参与(如果他们参与)，以及以什么顺序参与？与上一个问题类似:如果主节点发生故障，具体会发生什么情况以及谁负责从故障中恢复？最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru

Cluster Manager strong blockquote the hadoop apache-spark hadoop-yarn failover apache-spark-standalone

scala - Apache Spark : Get number of records per partition

我想检查一下我们如何获取有关每个分区的信息，例如总号。以yarn集群部署方式提交Spark作业时，驱动端各分区的记录数，以便在控制台进行日志或打印。最佳答案我会使用内置函数。它应该尽可能高效:importorg.apache.spark.sql.functions.spark_partition_iddf.groupBy(spark_partition_id).count 关于scala-ApacheSpark:Getnumberofrecordsperpartition，我们在St

partition records section spark_partition_id scala apache-spark hadoop apache-spark-sql partitioning

hadoop - ClassNotFoundException : org. apache.spark.SparkConf 与配置单元上的 Spark

我正在尝试使用SPARK作为配置单元执行引擎，但出现以下错误。Spark1.5.0已安装，我正在使用Hive1.1.0版本和Hadoop2.7.0版本。hive_emp表在hive中创建为ORC格式表。hive(Koushik)>insertintotablehive_empvalues(2,'Koushik',1);QueryID=hduser_20150921072727_feba8363-258d-4d0b-8976-662e404bca88Totaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer

配置单 ClassNotFoundException hive hadoop apache apache-spark

hadoop - Spark - java IOException :Failed to create local dir in/tmp/blockmgr*

我试图运行一个长时间运行的Spark作业。执行几个小时后，出现以下异常:Causedby:java.io.IOException:Failedtocreatelocaldirin/tmp/blockmgr-bb765fd4-361f-4ee4-a6ef-adc547d8d838/28试图通过检查来绕过它:/tmp目录中的权限问题。spark服务器未以root身份运行。但是/tmp目录应该对所有用户都是可写的。/tmp目录有足够的空间。最佳答案假设您正在使用多个节点，您需要检查参与spark操作的每个节点(master/drive

IOException blockmgr section strong tmp hadoop apache-spark apache-spark-sql

hadoop - Spark 是否使用数据局部性？

我正在尝试了解ApacheSpark的内部结构。我想知道Spark是否使用某些机制来确保在从InputFormat读取或写入OutputFormat(或Sparknative支持但不是从MapReduce派生的其他格式)时的数据局部性。在第一种情况(阅读)中，我的理解是，当使用InputFormat时，拆分与包含数据的主机(或主机？？)相关联，因此Spark尝试将任务分配给执行程序以减少网络尽可能转移。在写作的情况下，这种机制将如何运作？我知道从技术上讲，HDFS中的文件可以保存在本地的任何节点中并复制到其他两个节点(因此您将网络用于3个副本中的两个)，但是，如果您考虑写入其他系统，例

hadoop Spark section Cassandra hbase apache-spark

scala - Apache Spark EOF 异常

我在运行读取文本文件并收集结果的简单作业时收到EOFException。这在我的开发机器上运行良好，但在独立模式(单机、master+worker)下执行时失败。我的设置是预构建的ApacheSpark0.9.1Hadoop2。我正在使用sbt-assembly插件部署我的代码并生成一个可执行的jar文件。相关堆栈跟踪:14/05/2708:22:03WARNscheduler.TaskSetManager:Losswasduetojava.io.EOFExceptionjava.io.EOFExceptionatjava.io.ObjectInputStream$BlockDataI

Apache scala ObjectInputStream java at hadoop apache-spark

hadoop - Apache Drill 与 Spark

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭去年。Improvethisquestion我对ApacheSpark和Spark-SQL有一定的了解。最近我发现了ApacheDrill项目。您能描述一下它们之间最重要的优点/区别是什么吗？我已经读过FastHadoopAnalytics(ClouderaImpalavsSpark/SharkvsApacheDrill)但这个话题对我来说仍然不清楚。

hadoop Apache section class notice apache-spark bigdata apache-drill

Apache 许可证2.0 版

Apache许可证2.0版(摘抄自maven权威指南中文版)它允许你自由的下载和使用Apache软件，无论是软件的整体还是部分，也无论是出于个人目的，公司内部目的，还是商业目的。在你创建的类库或分发版本里使用Apache软件。它禁止你在没有正当的权限下重新分发任何源于Apache的软件或软件片段。以任何可能声明或暗示基金会认可你的分发版本的形式下使用Apache软件基金会拥有的标志。以任何可能声明或暗示你创建了Apache软件的形式下使用Apache软件基金会拥有的标志。它要求你在你重新分发的包含Apache软件的软件里，包含一份该许可证的副本。对于任何包含Apache软件的分发版本，提供给A

Apache 2.0 blockquote 分发

231 232 233234235 236 237