apache-spark-2.3

hadoop - 使用 Spark 读取 S3 文件时出现 NullPointerException

我正在尝试使用Spark读取S3文件并出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:433)atorg.apache.hadoop.fs.Globber.getFileStatus(Globber.java:57)atorg.apache.hadoop.fs.Globber.glob(Globber.java:248)atorg.apache.hadoop.fs.FileSystem

时出 NullPointerException apache scala spark hadoop amazon-s3 apache-spark

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能，一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别？(减少相同的问题)。为简单起见，我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3)，mapO/mapT的比率始终为6.0，redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695)，map

map-reduce map 的 section Hadoop apache amazon-web-services

java - 无法找到或加载主类 org.apache.giraph.yarn.GiraphApplicationMaster

我正在尝试让Giraph在YARN集群上运行，(Hadoop2.5.2)但我是否陷入了这个错误:Couldnotfindorloadmainclassorg.apache.giraph.yarn.GiraphApplicationMaster我已经尝试了我在之前关于此主题的消息中可以找到的所有方法，但无济于事。我的命令行是这样的:hadoopjar/home/prhodes/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-2.5.2-jar-with-dependencies.jarorg.

GiraphApplicationMaster apache giraph giraph-examples examples java hadoop graph bigdata

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

hadoop Memory accumulableCollection code bytes apache-spark hdfs

hadoop - Cassandra/HDFS 和 Spark 中的数据移动

在设计分布式存储和分析架构时，在与数据节点相同的机器上运行分析引擎是否是一种常见的使用模式？具体来说，直接在Cassandra/HDFS节点上运行Spark/Storm是否有意义？我知道自accordingtoHortonworks以来HDFS上的MapReduce具有这种使用模式,YARN最小化数据移动。我不知道这些其他系统是否也是如此。我想这是因为它们似乎可以相互插入，但我似乎无法在网上找到有关此的任何信息。我是这个主题的新手，因此非常感谢任何资源或答案。谢谢最佳答案是的，在Cassandra节点上运行Spark以最大限度地

Cassandra hadoop section Spark apache-spark hdfs distributed-computing

hadoop - Apache Spark 与 Hadoop 方法有何不同？

每个人都说Spark正在使用内存，因此它比Hadoop快得多。我没有从Spark文档中理解真正的区别是什么。Spark将数据存储在内存中的什么位置，而Hadoop不存储数据？如果数据对内存来说太大了怎么办？在那种情况下，它与Hadoop有多相似？最佳答案 Spark尝试将内容保存在内存中，而MapReduce不断将内容混入和移出磁盘。中间输出存储在主内存中，而hadoop将中间结果存储在辅助内存中。MapReduce插入了barrier，把东西写到磁盘再读回来需要很长时间。因此MapReduce可能是缓慢而费力的。消除此限制使Sp

何不 hadoop Spark section MapReduce apache-spark

hadoop - Spark 应用程序卡在 ACCEPTED 状态

我在一台Ubuntu14.04服务器上安装了Cloudera5.4的新实例，并希望运行其中一个spark应用程序。这是命令:sudo-uhdfsspark-submit--classorg.apache.spark.examples.SparkPi--deploy-modecluster--masteryarn/opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/jars/spark-examples-1.3.0-cdh5.4.5-hadoop2.6.0-cdh5.4.5.jar这是输出:SLF4J:Classpathcontainsmulti

ACCEPTED hadoop application Client 1440861466017 apache-spark

hadoop - spark.dynamicAllocation 的 EMR 配置与 Spark 官方文档不匹配

根据官方Spark文档(http://spark.apache.org/docs/latest/job-scheduling.html#configuration-and-setup)，在YARN中使用“spark.dynamicAllocation”选项时，您需要:Intheyarn-site.xmloneachnode,addspark_shuffletoyarn.nodemanager.aux-services...setyarn.nodemanager.aux-services.spark_shuffle.classtoorg.apache.spark.network.yarn

dynamicAllocation hadoop spark shuffle apache-spark emr amazon-emr

apache - 如何让 Mahout 推荐器工作得更快？

SO的Mahout社区您好!我有几个关于加速推荐计算的问题。在我的服务器上，我安装了没有Hadoop的Mahout。jRuby也用于推荐脚本。在数据库中，我有3k个用户和100k个项目(连接表中有270k个项目)。因此，当用户请求推荐时，简单的脚本开始工作:首先，它使用PGPoolingDataSource建立数据库连接，如下所示:connection=org.postgresql.ds.PGPoolingDataSource.new()connection.setDataSourceName("db_name");connection.setServerName("localhost

apache Mahout connection code section hadoop

java - PIG - 找到接口(interface) org.apache.hadoop.mapreduce.JobContext，但类是预期的

我试图从配置单元加载一个表。为此，我正在使用Hcatalog。我使用登录到配置单元pig-useHCatalog我从hive和hadoop导出了几乎所有的jarregister'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-exec-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-common-0.10.0-

JobContext interface localhost register 39 java hadoop hive apache-pig hcatalog

216 217 218219220 221 222