索尔_草庐IT

我将混合语言的PDF文档索引到Solr，这意味着一个文档是由不同语言（主要是英语零件和法语零件）制成的。我想根据语言将每个部分流式传输到特定字段。因此，可以说“你好，我叫尼古拉斯。目前，我只能在文档级别（使用Solr的LangDetect处理器）这样做，但对于混合语言文档无济于事。如果这太难了，我至少希望能够在索引过程中选择性地删除一种语言，并在字段中获得一种单一语言。看答案据我所知extractOnly根据请求。这将为您提供文档的内容。然后，您可以解析内容并通过语言分类器运行每个句子-或者如果要将其保存在solr中-每个句子都有一个文档。根据文档的数量以及您要查询的内容，这可能并不可行。