草庐IT

SimString

全部标签

java - Hadoop 作业因大数据上的 native SimString C 代码而失败

我在使用SimStringNative库在hadoop集群上运行大数据(~15G)作业时遇到问题。然而,作业在中/小型数据集(~200M)上运行良好。在作业期间,SimString首先创建一个基于文件的数据库来匹配字符串,然后对给定的字符串与数据库中的字符串进行匹配。作业完成后,它会删除基于文件的数据库。该作业以多线程(100个线程)方式运行。为作业执行创建了大约22个映射器,每个映射器运行​​100个线程。总体而言,机器内存为4G错误日志如下:14/02/1200:15:53INFOmapred.JobClient:map0%reduce0%14/02/1200:16:13INFOm