草庐IT

MapReduceIndexerTool

全部标签

java - 如何从 Java 运行 MapReduceIndexerTool 作业?

我想从Java运行MapReduceIndexerTool。现在我使用hadoopjar从命令行执行此操作,如您所见here,但我想从Java代码检查它的状态(查看它是否已完成、正在进行等)。所以基本上我想从Java运行它,以便能够从Java检查它的状态。有没有办法从命令行运行它并从Java检查它的状态?此外,还有一种方法可以让MapReduce在作业完成时发送一个事件(例如在回调上)?像webhook之类的东西? 最佳答案 据我所知,Tool接口(interface)仅公开了intrun(String[]args)方法,因此通常您

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式?

我有一个要求,我必须将HDFS文件(包括TXT、PDF、DOCX和其他丰富的文档)索引到Solr。目前,我正在使用LucidWorks连接器的DirectoryIngestMapper来实现相同的目的。https://github.com/lucidworks/hadoop-solr但我不能使用它,因为它有一定的局限性(主要是你不能指定要考虑的文件类型)。所以现在我正在研究使用MapReduceIndexerTool的可能性。但它没有很多初学者(我的意思是绝对基础!)级别的示例。有人可以发布一些示例链接以开始使用MapReduceIndexerTool吗?有没有其他更好或更简单的方法来

hadoop - 如何在 Oozie 中使用 MapReduceIndexerTool 包含自定义命令?

我想创建一个使用MapReduceIndexerTool的Oozie工作流获取我的数据并为其编制索引。我已经设法使用Shell操作让它工作,它调用我的脚本来执行以下命令:hadoopjar/opt/cloudera/parcels/CDH/lib/solr/contrib/mr/search-mr-*-job.jar\org.apache.solr.hadoop.MapReduceIndexerTool\-D'mapred.child.java.opts=-Xmx500m'\--morphline-filemorphline.conf\--output-dirhdfs://cloude

hadoop - MapReduceIndexerTool 没有正确地重新索引文档

我目前正在尝试使用在Clouderaquickstartvm上开发的ClouderaSearch批量索引来批量索引我目前在文本文件中的数据。我相信我的模式和morphline有问题,因为它完成了工作,并且在它被索引时似乎正在工作,但当我进入Solr仪表板时没有文档存在。核心显示但它只是零文档。我确定我正在运行的命令和cloudera搜索在允许我批量索引我使用示例输入文件、模式和morphline文件时的示例之前工作,它按应有的方式工作并索引并将文档添加到核。我用来执行此操作的命令是:hadoop--config/etc/hadoop/conf.cloudera.yarnjar\/usr