我将混合语言的PDF文档索引到Solr,这意味着一个文档是由不同语言(主要是英语零件和法语零件)制成的。我想根据语言将每个部分流式传输到特定字段。因此,可以说“你好,我叫尼古拉斯。目前,我只能在文档级别(使用Solr的LangDetect处理器)这样做,但对于混合语言文档无济于事。如果这太难了,我至少希望能够在索引过程中选择性地删除一种语言,并在字段中获得一种单一语言。看答案据我所知extractOnly根据请求。这将为您提供文档的内容。然后,您可以解析内容并通过语言分类器运行每个句子-或者如果要将其保存在solr中-每个句子都有一个文档。根据文档的数量以及您要查询的内容,这可能并不可行。