4gb

xml - 上传 4GB 文件到 Amazon-S3

我正在做一些非常简单的数据挖掘(实际上，只是一个单词收集)作为我本科生项目的研究项目。我将使用AmazonElasticMapReduce。我需要上传4GB的.xml文件。最好的方法是什么？上传小的zip文件并以某种方式将它们解压缩到存储桶中？还是拆分文件、上传然后将所有小文件用于流式MapReduce作业？最佳答案您应该将此xml放入序列文件中并对其进行bzip2，或者将其bzip2并在云中解压缩。关于xml-上传4GB文件到Amazon-S3，我们在StackOverflow上

hadoop - Datanode 重新启动 Hadoop fs -put 以获取大量数据(30 GB)

我有一个包含3个节点的hadoop集群。1个主人和2个奴隶。他们每个人都有24GB的内存。当我执行hadoopfs-put将数据从本地文件系统传输到hdfsdome数据被传输然后我得到一个异常12/11/0619:01:39WARNhdfs.DFSClient:DFSOutputStreamResponseProcessorexceptionforblockblk_-2646313249080465541_1002java.net.SocketTimeoutException:603000millistimeoutwhilewaitingforchanneltobereadyforre

Datanode hadoop apache org hdfs

hadoop - 创建具有较大 (>1GB) BytesWritable 值大小的 SequenceFile 时出现 NegativeArraySizeException

我尝试了不同的方法来创建一个大型的HadoopSequenceFile只是一个短的(1GB)值(BytesWriteable)。以下示例适用于开箱即用:https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-jobclient/src/test/java/org/apache/hadoop/mapred/BigMapOutput.java写入多个随机长度的键和值，总大小>3GB。然而，这不是我

时出 NegativeArraySizeException BytesWritable hadoop SequenceFile out-of-memory heap-memory large-files

hadoop - 5.6 GB 对 Cloudera 来说还不够吗？

我在笔记本电脑和OracleVirtualBoxVM上运行ClouderaHadoop。我已经从我的8核中分配了5.6GB，从八核中分配了6GB。而且我仍然无法保持它的正常运行。即使没有负载服务也不会保持正常运行，当我尝试查询时至少Hive会在20分钟内关闭。有时它们像多米诺骨牌一样倒下:一个接一个。更多的内存似乎对某些人有所帮助:使用3GB和所有服务时，当Hue本身设法启动时，Hue正在闪烁红色。重新启动后，我需要30到60分钟才能使系统启动到足以尝试在其上运行任何东西。有两个明智的注意事项(我设法找到了):-交换警告。-当系统使用26GB的虚拟内存不足时出现崩溃。我的数据集不到一兆

Cloudera hadoop section done 中分 out-of-memory development-environment

database - 我每天生成 2 GB 的 Web 服务器日志，如何过滤它们？

我有一个Web服务器，其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据？以前我在一台ubuntu机器上下载文件，然后grep得到结果。我还在AWS上测试了Hadoop，但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注最佳答案在您的情况下，我会推荐Elasticse

database Web section li logstash amazon-web-services hadoop data-warehouse bigdata

java - 具有 420GB 实例存储的 ec2 实例中的 Hadoop "Spill Failed"异常

我正在使用Hadoop2.3.0并将其作为单节点集群(伪分布式模式)安装在CentOS6.4Amazonec2实例上，实例存储为420GB和7.5GBRAM，我的理解是“溢出失败”仅当节点用完磁盘空间时才会发生异常，但是，在仅短时间运行map/reduce任务后(没有接近420GB的数据)我得到以下异常。我想提一下，我将同一节点上的Hadoop安装从8GB的EBS卷(我最初安装它的地方)移动到同一节点上的420GB实例存储卷，并更改了$HADOOP_HOME环境变量和其他属性相应地指向实例存储卷，Hadoop2.3.0现在完全包含在420GB驱动器中。但是我仍然看到以下异常，请问除

amp Failed hadoop apache MapTask java amazon-ec2 hadoop-yarn

scala - 在 Spark 中处理超过 3GB 的记录大小

当单个记录大小超过3GB时，我会遇到异常`java.lang.IllegalArgumentExceptionApp>atjava.nio.CharBuffer.allocate(CharBuffer.java:330)App>atjava.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:792)App>atorg.apache.hadoop.io.Text.decode(Text.java:412)App>atorg.apache.hadoop.io.Text.decode(Text.java:389)App>atorg.a

scala Spark 34 apache section hadoop apache-spark memory-management spark-dataframe

hadoop - 获取 "No space left on device"大约。 EMR m1.large 实例上的 10 GB 数据

当我使用m1.large作为作业流创建的hadoop实例的实例类型运行我的AmazonEMR作业时，我收到错误“设备上没有剩余空间”。该工作产生约。最大10GB的数据，因为m1.large实例的容量应该是420GB*2(根据:EC2instancetypes)。我很困惑为什么只有10GB的数据会导致“磁盘空间已满”之类的消息。我知道如果我们完全耗尽了文件系统上允许的inode总数，也可能会产生这种错误，但这就像一个数百万的大数字，我很确定我的工作不是产生那么多文件。我已经看到，当我尝试独立于m1.large类型创建一个EC2实例时，默认情况下它会为其分配一个8GB的根卷。这是否也是

amp 大约 type section code hadoop amazon-web-services amazon-ec2 elastic-map-reduce diskspace

Hadoop 放置性能 - 大文件 (20gb)

我正在使用hdfs-put将一个20GB的大文件加载到hdfs中。目前该过程运行@4分钟。我正在尝试改进将数据加载到hdfs的写入时间。我尝试使用不同的block大小来提高写入速度，但得到了以下结果:512Mblocksize=4mins;256Mblocksize=4mins;128Mblocksize=4mins;64Mblocksize=4mins;有谁知道瓶颈可能是什么以及我可以探索的其他选项来提高-putcmd的性能？最佳答案 20GB/4分钟约85MB/秒。这是一个非常合理的吞吐量，可以预期单个驱动器具有HDFS协议(

大文 Hadoop section blocksize hdfs large-files

PHP filesize() 在文件 > 2 GB

我一直在苦苦思索如何在PHP中获取大于等于2GB的文件的有效文件大小。例子在这里，我使用filesize()函数检查一个3,827,394,560字节大的文件的文件大小:echo"Thefileis".filesize('C:\MyFile.rar')."bytes.";结果这是它返回的内容:Thefileis-467572736bytes.背景PHP使用有符号整数，这意味着它可以表示的最大数字是2,147,483,647(+/-2GB)。这是它的局限性。最佳答案我尝试并显然有效的解决方案是使用COMFileObject的“Si

filesize PHP strong section file signed

36 37 383940 41 42