草庐IT

xml - 如何使用linux csplit 分割海量XML文件?

我有一个巨大的(4GB)XML文件,我目前正在使用linux“拆分”功能将其分成block(每25,000行-不是按字节)。这通常效果很好(我最终得到大约50个文件),除了一些数据描述有换行符,而且block文件经常没有正确的结束标记-我的解析器在处理中途阻塞。示例文件:(注意:通常每个“列表”xml节点应该在其自己的行上)2009-09-22ThisisadescriptionWITHOUTlinebreaksandworksfinewithsplitstuff2009-09-22ThisisareallyannoyingdescriptionfieldWITHlinebreakst