gb2312

python - 将 17GB JSON 文件转换为 numpy 数组

我在hdfs中放置了一个17GB的大JSON文件。我需要读取该文件并将其转换为nummy数组，然后将其传递给K-Means聚类算法。我尝试了很多方法，但系统速度变慢并出现内存错误或内核死机。我试过的代码是fromhdfs3importHDFileSystemimportpandasaspdimportnumpyasnmimportjsonhdfs=HDFileSystem(host='hostname',port=8020)withhdfs.open('/user/iot_all_valid.json/')asf:forlineinf:data=json.loads(line)df=p

hadoop - 具有15个表联接的Hive查询预计将在3个数据节点上生成10亿条记录，每个16GB RAM这是正确的方法吗？

我叫维塔尔。Amazon上的HortonworksHDP2.4群集是3个数据节点，不同实例上的主节点。7个实例，每个16GBRAM。1TB硬盘总空间3个数据节点Hadoop2.7版我已将数据从Postgres拉入Hadoop分布式环境。数据为15表，其中4表具有1500万记录，其余为Master。我将它们放在HDFS中，压缩为ORC和SnappyCodec。使用架构创建的Hive外部表。现在，我触发一个查询，该查询将所有15个表连接在一起，并选择最终平面表中所需的列。预期记录超过15亿。我已经优化了Hive，Yarn，MapReduceEngine，也就是。并行执行，向量化，优化联接，

上生联接 br Hive 的 hadoop mapreduce left-join hortonworks-data-platform

java - 无法将 Hadoop 2.2 的虚拟内存更改为超过默认的 2.1 GB

我在CentsOS6.4和8GBRAM的笔记本电脑上以伪分布式模式运行hadoop2.2。每当我提交作业时，我都会收到一条错误消息，指出虚拟内存使用量已超出，如下所示。我已将yarn-site.xml中的yarn.nodenamager.vmem-pmem-ratio比率更改为10(10x1GB)，但是虚拟内存的增加并没有超过默认的2.1GB，如在下面的错误消息和容器正在被杀死。有人可以告诉我是否还有其他需要更改的设置吗？提前致谢!错误信息:INFOmapreduce.Job:TaskId:attempt_1388632710048_0009_m_000000_2,Status:FAI

Hadoop java 1388632710048 container general hadoop-yarn

java - 通过java程序读取大型输入文件(10gb)

我正在处理2个大输入文件，每个文件大小为5GB。它是Hadoopmapreduce的输出，但由于我无法在Mapreduce中进行依赖性计算，我正在切换到优化的for循环以进行最终计算(请参阅我之前关于mapreduce设计的问题RecursivecalculationsusingMapreduce我想就在java中读取如此大的文件并进行一些基本操作提出建议，最后我将写出大约5gb的数据..感谢你的帮助最佳答案如果文件具有您所描述的属性，即每个键有100个整数值，每个键有10GB，那么您正在谈论的键数量非常多，远远超出了内存所能容

java 大型 section stackoverflow questions memory-management file-io hadoop mapreduce

xml - 上传 4GB 文件到 Amazon-S3

我正在做一些非常简单的数据挖掘(实际上，只是一个单词收集)作为我本科生项目的研究项目。我将使用AmazonElasticMapReduce。我需要上传4GB的.xml文件。最好的方法是什么？上传小的zip文件并以某种方式将它们解压缩到存储桶中？还是拆分文件、上传然后将所有小文件用于流式MapReduce作业？最佳答案您应该将此xml放入序列文件中并对其进行bzip2，或者将其bzip2并在云中解压缩。关于xml-上传4GB文件到Amazon-S3，我们在StackOverflow上

Amazon-S Amazon section stackoverflow MapReduce xml amazon-s3 amazon-ec2 hadoop

hadoop - Datanode 重新启动 Hadoop fs -put 以获取大量数据(30 GB)

我有一个包含3个节点的hadoop集群。1个主人和2个奴隶。他们每个人都有24GB的内存。当我执行hadoopfs-put将数据从本地文件系统传输到hdfsdome数据被传输然后我得到一个异常12/11/0619:01:39WARNhdfs.DFSClient:DFSOutputStreamResponseProcessorexceptionforblockblk_-2646313249080465541_1002java.net.SocketTimeoutException:603000millistimeoutwhilewaitingforchanneltobereadyforre

Datanode hadoop apache org hdfs

hadoop - 创建具有较大 (>1GB) BytesWritable 值大小的 SequenceFile 时出现 NegativeArraySizeException

我尝试了不同的方法来创建一个大型的HadoopSequenceFile只是一个短的(1GB)值(BytesWriteable)。以下示例适用于开箱即用:https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-jobclient/src/test/java/org/apache/hadoop/mapred/BigMapOutput.java写入多个随机长度的键和值，总大小>3GB。然而，这不是我

时出 NegativeArraySizeException BytesWritable hadoop SequenceFile out-of-memory heap-memory large-files

hadoop - 5.6 GB 对 Cloudera 来说还不够吗？

我在笔记本电脑和OracleVirtualBoxVM上运行ClouderaHadoop。我已经从我的8核中分配了5.6GB，从八核中分配了6GB。而且我仍然无法保持它的正常运行。即使没有负载服务也不会保持正常运行，当我尝试查询时至少Hive会在20分钟内关闭。有时它们像多米诺骨牌一样倒下:一个接一个。更多的内存似乎对某些人有所帮助:使用3GB和所有服务时，当Hue本身设法启动时，Hue正在闪烁红色。重新启动后，我需要30到60分钟才能使系统启动到足以尝试在其上运行任何东西。有两个明智的注意事项(我设法找到了):-交换警告。-当系统使用26GB的虚拟内存不足时出现崩溃。我的数据集不到一兆

Cloudera hadoop section done 中分 out-of-memory development-environment

database - 我每天生成 2 GB 的 Web 服务器日志，如何过滤它们？

我有一个Web服务器，其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据？以前我在一台ubuntu机器上下载文件，然后grep得到结果。我还在AWS上测试了Hadoop，但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注最佳答案在您的情况下，我会推荐Elasticse

database Web section li logstash amazon-web-services hadoop data-warehouse bigdata

java - 具有 420GB 实例存储的 ec2 实例中的 Hadoop "Spill Failed"异常

我正在使用Hadoop2.3.0并将其作为单节点集群(伪分布式模式)安装在CentOS6.4Amazonec2实例上，实例存储为420GB和7.5GBRAM，我的理解是“溢出失败”仅当节点用完磁盘空间时才会发生异常，但是，在仅短时间运行map/reduce任务后(没有接近420GB的数据)我得到以下异常。我想提一下，我将同一节点上的Hadoop安装从8GB的EBS卷(我最初安装它的地方)移动到同一节点上的420GB实例存储卷，并更改了$HADOOP_HOME环境变量和其他属性相应地指向实例存储卷，Hadoop2.3.0现在完全包含在420GB驱动器中。但是我仍然看到以下异常，请问除

amp Failed hadoop apache MapTask java amazon-ec2 hadoop-yarn

36 37 383940 41 42