hadoop-examples

hadoop - es-hadoop(ElasticSearch-Hadoop)是如何做Hadoop的？

如果es-hadoop只是连接到HDFS的Hadoop连接器，它如何支持Hadoop分析？最佳答案我假设您指的是thisproject.在这种情况下，ESHadoop项目有两个方面。用于创建索引快照的HDFSES插件。但它也有各种实用程序，可以在Mapreduce、Hive、Pig、Spack等中使用，用于与Elasticsearch交互。例如，可以使用Mapreduce通过ESOutputFileFormat格式从HBase批量加载ES文档。也可以使用Mapreduce通过类似的机制从ES读取。

hadoop - 如何使用 Solr 索引目录中的所有 csv 文件？

给定一个包含数百个制表符分隔的csv文件的目录，每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。索引这些文件的最有效方法是什么？最佳答案如果你有很多文件，我认为有几种方法可以提高索引速度:首先，如果你的数据在本地磁盘上，你可以使用多线程建立索引，但需要注意，每个线程都有自己的索引输出目录。最后将它们合并成一个索引，以提高搜索速度。其次，如果你的数据在HDFS上，我觉得使用HadoopMapReduce来建立索引是非常强大的。另外，Pig或者Hive的一些UDF插件也可以很方便

hadoop Solr section stackoverflow 的 indexing cloudera solrcloud

java - 如何在 MapReduce hadoop 中使用 GeoLite 数据库？

我正在尝试编写一个MapReduce程序，我正在尝试使用GeoLite数据库来解析IP地址的位置。我不确定如何将数据库文件传递给映射器以及要使用哪些依赖项？最佳答案在MapReducehadoop中使用GeoLite数据库的一种方法是将数据库作为缓存文件传递，方法是使用:DistributedCache.addCacheFile(inputPath.toUri(),job.getConfiguration());您可以使用缓存文件将.mmdb文件传递给每个映射器。我用于使用GeoLite数据库的依赖项是:com.maxmin

何在 MapReduce section dependency 射器 java hadoop

hadoop - 如何从 hib 获取文件名

我正在使用hipimapreduce来处理图像。在mapreduce过程中，我无法在imageheader中找到原始文件名。在hipi的imageheader中，我可以添加任何元数据来识别图像吗？最佳答案可以通过FloatImage的.getMetaData(key)方法获取图片的文件名。作为mapreduce过程中的示例:publicvoidmap(HipiImageHeaderkey,FloatImagevalue,Contextcontext)throwsIOException,InterruptedException{.

hadoop hib section filename mapreduce hipi

hadoop - 使用不在 hdfs 中的文件

我有服务器的root访问权限，安装了hadoop和hive。但是，尽管我有root权限，但我无法将数据从文件系统复制到hdfs:root@serv:~#hadoopfs-putflume_test/logs/userput:Permissiondenied:user=root,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我尝试了不同的方法从文件flume_test/logs创建表，它不在hdfs中。例如:CREATETABLEnatlog_orc(src_local_ipSTRING,time_startSTRING,tim

hadoop hdfs section STRING hive bigdata

hadoop - 清除hdfs中的/tmp目录

这是否正确，hdfs中的/tmp目录每24小时自动清除一次(默认情况下)？最佳答案 HDFS/tmp目录主要用作mapreduce运行时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时，这些文件应该被自动清除。如果删除此临时文件，可能会影响当前正在运行的mapreduce作业。临时文件由pig创建。临时文件删除发生在最后。如果脚本执行已归档或终止，Pig不会处理临时文件删除。然后你必须处理这种情况。您最好在脚本本身中处理此临时文件清理事件。

hadoop hdfs section strong mapreduce

hadoop - 为什么从 Teradata 迁移到 Hadoop

帮助我了解hadoop相对于teradata有哪些优势。我们为什么要从teradat迁移到hadoop。在我的应用程序中，我有一些报告从teradata检索数据，由于有数百万行数据，报告速度非常慢。迁移到hadoop会解决这个问题吗？最佳答案 hadoopvsteradatawhatisthedifference可能重复.Hadoop系统的主要优势是商品硬件的可扩展性。正如@dnoeth在评论中指出的那样。Teradata还可以类似于Hadoop进行横向扩展。但它只能使用昂贵的服务器进行横向扩展。然而，Hadoop系统可以使用任何

Teradata hadoop section hive

java - 为什么我在 hadoop 的 mapreduce 中得到 3xx 重复项？

我正在使用hadoop的mapreduce从hdfs中读取一个文件，将其放入一个简单的解析器，然后将该解析器的输出写回到hdfs。我还没有reducetask。我想知道为什么我的输出文件中有大约300个重复项。这是我的map方法。publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{FileSplitfsplit=(FileSplit)reporter.getInputSplit();Mainparser=newMain();StringdatFi

mapreduce hadoop conf section code java hdfs

hadoop - Pig - 获取 Top n 并在 'other' 中休息

我有分组和聚合的数据，看起来像这样-DateCountryBrowserCount-----------------------2015-07-11,US,Chrome,132015-07-11,US,OperaMini,12015-07-11,US,Firefox,22015-07-11,US,IE,12015-07-11,US,Safari,1...2015-07-11,UK,ChromeMobile,10262015-07-11,UK,IE,4552015-07-11,UK,MobileSafari,47822015-07-11,UK,MobileFirefox,40...201

中休 amp 2015 browser 11 hadoop apache-pig hdfs

hadoop - 如何按字符解析Hive中的数据&

数据是这样的:fsid=4778&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&Incorrect=Falsefsid=3478&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&userid=10598&Incorrect=False我想看看我一共有多少fsid，一共有多少userid，很多记录都没有userid。我正在使用Hive，也许这不是最好的方法，如果这是一个平面文本文件，我知道如何

amp hadoop section userid amazon-web-services mapreduce hive

42 43 444546 47 48