草庐IT

onesearch

全部标签

搜索引擎onesearch 2.0分布式文档索引设计+tika原理源码分析

背景《搜索引擎onesearch1.0-设计与实现.docx》介绍了1.0特性,表达式搜索,搜索schema,agg,映射等,同时附录介绍未来规划,其主要特性是文档索引,随着分布式dataX完成,技术基础已完备。本文介绍分布式文档索引,包括tika的原理源码分析关键词Tika原理源码分析,内容类型识别,内容抓取,分布式datax参考资料《搜索引擎onesearch1.0-设计与实现.docx》《分布式dataX架构设计》《分布式dataX详细(