spark-graphx

scala - 在scala spark中将文件读入数组列表

我对spark和scala完全陌生。我想将文件读入数组列表。这就是它在java中的实现方式。ListsourceRecords;sourceRecords=newArrayList();BufferedReaderSW;SW=newBufferedReader(newFileReader(srcpath[0].toString()));Stringsrcline;while((srcline=SW.readLine())!=null){sourceRecords.add(srcline.toString());}spark中的scala怎么实现最佳答案

读入 scala code section sourceRecords hadoop apache-spark

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后，它只注册了1个执行器，并为其分配了一些默认

SPARK SPARK_EXECUTOR_INSTANCES code Dspark scala hadoop apache-spark hadoop-yarn

hadoop - 使用 Spark 读取 S3 文件时出现 NullPointerException

我正在尝试使用Spark读取S3文件并出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:433)atorg.apache.hadoop.fs.Globber.getFileStatus(Globber.java:57)atorg.apache.hadoop.fs.Globber.glob(Globber.java:248)atorg.apache.hadoop.fs.FileSystem

时出 NullPointerException apache scala spark hadoop amazon-s3 apache-spark

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

hadoop Memory accumulableCollection code bytes apache-spark hdfs

hadoop - Cassandra/HDFS 和 Spark 中的数据移动

在设计分布式存储和分析架构时，在与数据节点相同的机器上运行分析引擎是否是一种常见的使用模式？具体来说，直接在Cassandra/HDFS节点上运行Spark/Storm是否有意义？我知道自accordingtoHortonworks以来HDFS上的MapReduce具有这种使用模式,YARN最小化数据移动。我不知道这些其他系统是否也是如此。我想这是因为它们似乎可以相互插入，但我似乎无法在网上找到有关此的任何信息。我是这个主题的新手，因此非常感谢任何资源或答案。谢谢最佳答案是的，在Cassandra节点上运行Spark以最大限度地

Cassandra hadoop section Spark apache-spark hdfs distributed-computing

hadoop - Apache Spark 与 Hadoop 方法有何不同？

每个人都说Spark正在使用内存，因此它比Hadoop快得多。我没有从Spark文档中理解真正的区别是什么。Spark将数据存储在内存中的什么位置，而Hadoop不存储数据？如果数据对内存来说太大了怎么办？在那种情况下，它与Hadoop有多相似？最佳答案 Spark尝试将内容保存在内存中，而MapReduce不断将内容混入和移出磁盘。中间输出存储在主内存中，而hadoop将中间结果存储在辅助内存中。MapReduce插入了barrier，把东西写到磁盘再读回来需要很长时间。因此MapReduce可能是缓慢而费力的。消除此限制使Sp

何不 hadoop Spark section MapReduce apache-spark

hadoop - Spark 应用程序卡在 ACCEPTED 状态

我在一台Ubuntu14.04服务器上安装了Cloudera5.4的新实例，并希望运行其中一个spark应用程序。这是命令:sudo-uhdfsspark-submit--classorg.apache.spark.examples.SparkPi--deploy-modecluster--masteryarn/opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/jars/spark-examples-1.3.0-cdh5.4.5-hadoop2.6.0-cdh5.4.5.jar这是输出:SLF4J:Classpathcontainsmulti

ACCEPTED hadoop application Client 1440861466017 apache-spark

hadoop - spark.dynamicAllocation 的 EMR 配置与 Spark 官方文档不匹配

根据官方Spark文档(http://spark.apache.org/docs/latest/job-scheduling.html#configuration-and-setup)，在YARN中使用“spark.dynamicAllocation”选项时，您需要:Intheyarn-site.xmloneachnode,addspark_shuffletoyarn.nodemanager.aux-services...setyarn.nodemanager.aux-services.spark_shuffle.classtoorg.apache.spark.network.yarn

dynamicAllocation hadoop spark shuffle apache-spark emr amazon-emr

spark 使用python语言操作（基于pycharm的安装使用）

本文是关于如何使用pycharm下面执行spark相关操作，spark搭建的是单机模式。1.安装单机模式的spark1.1下载spark下载地址：https://archive.apache.org/dist/spark/我选取的是spark-3.1.2-bin-hadoop3.2.tgz1.2上传压缩包将下载好的spark压缩包通过xftp传输到hadoop102的/opt/module（集群节点）目录下面直接拖到过去就行了1.3解压缩包tar-zxvfspark压缩包-C解压路径我使用的是tar-zxvfspark-3.1.2-bin-hadoop3.2.tgz-C/opt/softwar

使用基于 strong xff img spark python pycharm

hadoop - Spark 是否支持静态加密？

Hadoop最近推出了静态加密(HDFS-6134)。我想知道Spark是否也支持它？我的意思是Spark可以处理以加密格式存储在HDFS中的数据吗？最佳答案是的，Spark将能够在不对应用程序代码进行任何更改的情况下访问数据。数据对应用程序透明地加密，这意味着您的所有JavaAPI和命令行界面都像以前一样工作，无需任何更改。该框架将在不打扰您的情况下进行加密。这是文档中的引述:HDFSimplementstransparent,end-to-endencryption.Onceconfigured,datareadfroman

hadoop Spark section transparent apache-spark hdfs

71 72 737475 76 77