不足以

java - SPARK 驱动程序在读取多个 S3 文件时内存不足

情况我是SPARK的新手，我在EMR中运行SPARK作业，它读取一堆S3文件并执行Map/reduce作业。总共有200个S3位置，平均包含400个文件。在最后的示例中，textFile(...)API使用逗号分隔的S3路径和通配符(*)调用:sc.textFile("S3://FilePath1/\*","S3://FilePath2/\*"....."S3://FilePath200/\*")该作业在驱动程序中花费了大量时间，最终内存不足并出现以下错误。Container[pid=66583,containerID=container_1507231957101_0001_02_0

在读驱动 spark 1507231957101 code java hadoop apache-spark amazon-s3

hadoop - 大约多少半结构化数据足以建立 Hadoop 集群？

我知道，Hadoop不仅是一般半结构化数据处理的替代品——我可以用制表符分隔的普通数据和一堆unix工具(cut、grep、sed、...)和手写来做很多事情python脚本。但有时我会得到大量数据，处理时间会长达20-30分钟。这对我来说是NotAcceptable，因为我想动态地试验数据集，运行一些半临时查询等。那么，根据这种方法的成本-结果，您认为多少数据量足以设置Hadoop集群？最佳答案不知道你在做什么，这里是我的建议:如果您想对数据运行临时查询，Hadoop不是最佳选择。您是否尝试过将数据加载到数据库中并对其运行查询

结构化足以 section Hadoop noreferrer bigdata

hadoop fs -ls 内存不足错误

我在HDFS数据目录中有300000多个文件。当我执行hadoopfs-ls时，出现内存不足错误，提示已超出GC限制。每个集群节点都有256GB的RAM。我该如何解决？最佳答案您可以通过指定“HADOOP_CLIENT_OPTS”为hdfs命令提供更多内存HADOOP_CLIENT_OPTS="-Xmx4g"hdfsdfs-ls/在这里找到:http://lecluster.delaurent.com/hdfs-ls-and-out-of-memory-gc-overhead-limit/这解决了我的问题，我在一个目录中有超过4

hadoop fs section hdfs-ls-and-out-of-memory-gc-over HADOOP_CLIENT_OPTS hdfs

hadoop - hadoop 集群上的 gcloud compute 权限不足

我在开发控制台上使用点击部署机制安装了hadoop集群。我对自定义设置做了一些修改，例如机器种类，机器数量。集群已部署。但是现在当我登录到master并运行以下命令时sudogcloudcompute防火墙规则列表我收到错误:权限不足我检查了主节点的权限，我看到了这个:权限用户信息-禁用，计算障碍存储满任务队列-禁用BigQuery-禁用CloudSQL-已禁用云数据存储-禁用云平台-禁用当我启动一个单独的虚拟机时，我可以为这些方面启用它的权限，但是当我启动一个集群时，我不能。这是我在hadoopmaster上看到权限错误的原因吗？如何修复？更多背景:我需要启用防火墙端口，以便我可以使

hadoop compute section gcloud google-compute-engine

java - Hadoop copyFromLocal 内存不足问题

我正在尝试将包含1,048,578个文件的目录复制到hdfs文件系统中，但是出现以下错误:Exceptioninthread"main"java.lang.OutOfMemoryError:Javaheapspaceatjava.util.Arrays.copyOf(Arrays.java:2367)atjava.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130)atjava.lang.AbstractStringBuilder.ensureCapacityInternal(Abstract

copyFromLocal Hadoop java apache copy out-of-memory heap-memory

scala - 引发多次迭代内存不足

我有一个spark作业(在spark1.3.1中运行)必须迭代几个键(大约42个)并处理该作业。这是程序的结构从map中获取key从与key匹配的配置单元(下面的hadoop-yarn)中获取数据作为数据框处理数据将结果写入配置单元当我为一个键运行它时，一切正常。当我使用42个键运行时，我在第12次迭代时遇到内存不足异常。有没有办法在每次迭代之间清理内存？帮助表示赞赏。这是我正在使用的高级代码。publicabstractclassSparkRunnable{publicstaticSparkContextsc=null;publicstaticJavaSparkContextjsc=

引发 scala spark DAGScheduler hadoop apache-spark hive spark-dataframe

hadoop - 使用大内存映射文件时 yarn 容器内存不足

我正在使用hadoop2.4。reducer使用几个大内存映射文件(总共约8G)。reducer本身使用的内存非常少。据我所知，内存映射文件(FileChannel.map(readonly))也使用很少的内存(由OS而不是JVM管理)。我遇到了这个错误:Container[pid=26783,containerID=container_1389136889967_0009_01_000002]isrunningbeyondphysicalmemorylimits.Currentusage:4.2GBof4GBphysicalmemoryused;5.2GBof8.4GBvirtual

大内容器 code mapreduce section hadoop hadoop-yarn memory-mapped-files

java - 为什么身份映射器会内存不足？

在仅减少的Hadoop作业中，输入文件由身份映射器处理，并在不修改的情况下发送到减少器。在我的一些工作中，我非常惊讶地看到工作在映射阶段失败并出现“内存不足错误”和“超出GC开销限制”。以我的理解，身份映射器上的内存泄漏是不可能的。出现这种错误的原因是什么？最佳答案经过几个小时的研究和反复试验，我意识到我为TASK组配置的机器是内存不多的小型实例，更有趣的是，我内存不足的时间点是在洗牌期间的映射。关于java-为什么身份映射器会内存不足？，我们在StackOverflow上找到一个

射器 java section 并出 hadoop out-of-memory amazon-emr

hadoop - 在 hadoop 中，复制不足和复制过度意味着什么，它是如何工作的？

INmapreduceconceptunderreplica和overreplica要使用。如何平衡上副本和下副本。最佳答案我想您知道默认情况下复制因子是3。过度复制block是超出其所属文件的目标复制的block。通常，过度复制不是问题，HDFS会自动删除多余的副本。这就是它在这种情况下的平衡方式。复制不足的block是不满足其所属文件的目标复制的block。为了平衡这些HDFS将自动创建复制不足的block的新副本，直到它们满足目标复制。您可以使用获取有关正在复制(或等待复制)的block的信息hdfsdfsadmin-me

hadoop 意味着 section block blocks mapreduce

java - 可读字节不足 - 需要 4 个，最大值为 0

在连接到Cassandra数据库并创建key空间时，出现以下错误。Exceptioninthread"main">com.datastax.driver.core.exceptions.NoHostAvailableException:Allhost(s)triedforqueryfailed(tried:/127.0.0.1:9042(com.datastax.driver.core.ConnectionException:[/127.0.0.1:9042]Unexpectederrorduringtransportinitialization(com.datastax.driver

java 可读 datastax driver hadoop cassandra database nosql

50 51 525354 55 56