草庐IT

sparking

全部标签

hadoop - Apache Spark 1.2.1 独立集群给出 java 堆空间错误

我需要有关如何计算在spark独立集群中的xmb(假设x表示600mb)上运行需要多少堆空间(内存)的信息。场景:我有14GB内存和8个内核的独立集群。我想对600MB的数据进行操作(从文件中读取数据并将其写入Cassandra)。对于此任务,我将SparkConfig作为:.set("spark.cassandra.output.throughput_mb_per_sec","800").set("spark.storage.memoryFraction","0.3")提交任务时--executor-memory=5g--total-executor-cores6--driver-m

scala - 带 Spark 的独立 HBase,HBaseTest.scala 出错

您好,我正在使用独立的hbase,我想在上面测试spark。我的机器上没有hadoop。当我尝试使用HBaseTest.scala获取表的计数时(在scala示例中)我收到以下错误:ERRORTableInputFormat:java.io.IOException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:416)atorg.apache.hadoop.hba

hadoop - Spark/Hadoop/Yarn集群通信需要外部ip?

我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1),默认情况下,实例是使用临时外部ips创建的,到目前为止spark工作正常。考虑到一些安全问题,并假设集群只能在内部访问,我从实例中删除了外部ips;在那之后,spark-shell甚至不会运行,并且似乎无法与Yarn/Hadoop通信,并且会无限期地卡住。只有在我重新添加外部ips之后,spark-shell才开始正常工作。我的问题是,运行sparkoveryarn是否需要节点的外部ips,为什么?如果是,是否会有关于安全等方面的担忧?谢谢! 最佳答案

hadoop - 加入 Spark 输出错误的结果,而 map-side join 是正确的

我的spark版本是1.2.0,场景是这样的:有两个RDD,分别是RDD_A和RDD_B,其数据结构都是RDD[(spid,the_same_spid)]。RDD_A有20,000行,而RDD_B有3,000,000,000行。我打算计算其“spid”存在于RDD_A中的RDD_B的行数。我的第一个实现相当主流,在RDD_A上应用RDD_B的join方法:valcurrentDay=args(0)valconf=newSparkConf().setAppName("Spark-MonitorPlus-LogStatistic")valsc=newSparkContext(conf)//

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询,并将接收到的查询转换为SQL,以便使用SparkSQL在我的数据上运行。在此过程中,我需要运行多个SQL查询,然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度,例如,对已收到的数据帧而不是整个数据库运行查询?有没有更好的方式来交互查询Parquet存储的数据并给出结果?谢谢! 最佳答案 如果您在同一个RDD上运行多个查询,您可以通过在查询之前使用.cache()缓存RD

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳,我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是,对于每一天,都有一个文件夹(或分区),其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法,我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数?我如何在S3和HDFS中实现它?谢谢你的帮助。 最佳答案 如果您查看SparkDa

scala - 使用 Spark 分析推特数据

其他任何人都可以帮助我了解如何根据我写的“键”分析推特数据。我找到了这段代码,但这给我一个错误。importjava.io.Fileimportcom.google.gson.Gsonimportorg.apache.spark.streaming.twitter.TwitterUtilsimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.{SparkConf,SparkContext}/***Collectatleastthespecifiednumberoftweetsi

scala - Spark 斯卡拉 : JniBasedUnixGroupsMapping: Error getting groups for XXX: The user name could not be found

我一直在使用scalaIDE中的spark从我的本地系统连接到Hive(在集群中),最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中并且能够连接到Metastore但是无法访问配置单元表。如何更改HiveContext的用户15/12/2210:28:42INFOParseDriver:解析命令:显示表15/12/2210:28:43信息ParseDriver:解析已完成15/12/2210:28:45信息Metastore:尝试使用URIthrift://Server.com:9083连接到Metastore22年12月15日10:28:46信息J

hadoop - 当 spark 处于本地模式时,是否有任何守护进程运行?

当我们在本地模式下运行Spark[通过设置-Dspark.master=local[n]]时,这意味着将运行N个线程来完成作业。但是它会在本地jvm中启动任何守护进程(驱动程序或执行程序)吗? 最佳答案 在本地模式下,它启动单个JVM进程,其中包括单个驱动程序(每个spark应用程序始终有一个驱动程序)和只有一个执行程序并置在驱动程序的JVM进程中 关于hadoop-当spark处于本地模式时,是否有任何守护进程运行?,我们在StackOverflow上找到一个类似的问题:

hadoop - 对于 Cloudera 5.4 hadoop 集群,Spark 独立调度程序或 Yarn 调度程序更好吗?

关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好? 最佳答案 运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos),Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说,如果您启动一个Spark应用程序并且它使用了所有资源,那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado