“滚滚长江东逝水,浪花淘尽英雄”。近来读《三国演义》,忽然想看看到底哪位英雄在书中提到的最多,于是就想用分词算法实现一下。网上也确实有相关的案例,作为参考,自己又重写并优化了一遍。思路下载《三国演义》txt文档使用jieba分词算法对文档进行分词处理将分词结果踢除停用词、标点符合、非人名等词频统计、并排序可视化展示问题按照上面的思路进行简单实施时,查看结果会发现几个问题名字三国人物有名、字、号等,还有其他的一些别称,如“相父”、“曹阿瞒“、刘皇叔”,要想办法统一成一个人词性比如“曰”、“大胜”等非人名的词不是我们需要统计的分词一些如“孔明曰”、“玄德问”、“操大怒”之类的词没有被分割开干扰词分