本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTokenizer(分词)分词是将文本(如一个句子)拆分成单独词汇(通常是单词)的过程。一个简单的Tokenizer类提供了这项功能。下面的例子展示了如何将句子分割成单词序列。RegexTokenizer