草庐IT

SparseVectorsFromSequenceFiles

全部标签

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

我一直致力于使用Mahout提供的SparseVectorsFromSequenceFiles、RowIdJob和RowSimilarityJobHadoop作业执行潜在语义分析,这些作业运行Map/减少工作。我一直在尝试为这些在内存中运行的功能寻找一个等效的实现,可以在单个线程中,也可以最好是在多个线程中。有这样的事情吗? 最佳答案 我不知道,我不这么认为,但写起来会很简单。您只需打开一个SequenceFile.Reader并针对每条记录,从值Writable中获取Vector并执行您想要的操作这可能是10行代码而不值得一个工具