SparseVectorsFromSequenceFiles

我一直致力于使用Mahout提供的SparseVectorsFromSequenceFiles、RowIdJob和RowSimilarityJobHadoop作业执行潜在语义分析，这些作业运行Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现，可以在单个线程中，也可以最好是在多个线程中。有这样的事情吗？最佳答案我不知道，我不这么认为，但写起来会很简单。您只需打开一个SequenceFile.Reader并针对每条记录，从值Writable中获取Vector并执行您想要的操作这可能是10行代码而不值得一个工具