hadoop-worker

java - 如何在 MapReduce hadoop 中使用 GeoLite 数据库？

我正在尝试编写一个MapReduce程序，我正在尝试使用GeoLite数据库来解析IP地址的位置。我不确定如何将数据库文件传递给映射器以及要使用哪些依赖项？最佳答案在MapReducehadoop中使用GeoLite数据库的一种方法是将数据库作为缓存文件传递，方法是使用:DistributedCache.addCacheFile(inputPath.toUri(),job.getConfiguration());您可以使用缓存文件将.mmdb文件传递给每个映射器。我用于使用GeoLite数据库的依赖项是:com.maxmin

何在 MapReduce section dependency 射器 java hadoop

hadoop - 如何从 hib 获取文件名

我正在使用hipimapreduce来处理图像。在mapreduce过程中，我无法在imageheader中找到原始文件名。在hipi的imageheader中，我可以添加任何元数据来识别图像吗？最佳答案可以通过FloatImage的.getMetaData(key)方法获取图片的文件名。作为mapreduce过程中的示例:publicvoidmap(HipiImageHeaderkey,FloatImagevalue,Contextcontext)throwsIOException,InterruptedException{.

hadoop hib section filename mapreduce hipi

hadoop - 使用不在 hdfs 中的文件

我有服务器的root访问权限，安装了hadoop和hive。但是，尽管我有root权限，但我无法将数据从文件系统复制到hdfs:root@serv:~#hadoopfs-putflume_test/logs/userput:Permissiondenied:user=root,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我尝试了不同的方法从文件flume_test/logs创建表，它不在hdfs中。例如:CREATETABLEnatlog_orc(src_local_ipSTRING,time_startSTRING,tim

hadoop hdfs section STRING hive bigdata

hadoop - 清除hdfs中的/tmp目录

这是否正确，hdfs中的/tmp目录每24小时自动清除一次(默认情况下)？最佳答案 HDFS/tmp目录主要用作mapreduce运行时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时，这些文件应该被自动清除。如果删除此临时文件，可能会影响当前正在运行的mapreduce作业。临时文件由pig创建。临时文件删除发生在最后。如果脚本执行已归档或终止，Pig不会处理临时文件删除。然后你必须处理这种情况。您最好在脚本本身中处理此临时文件清理事件。

hadoop hdfs section strong mapreduce

hadoop - 为什么从 Teradata 迁移到 Hadoop

帮助我了解hadoop相对于teradata有哪些优势。我们为什么要从teradat迁移到hadoop。在我的应用程序中，我有一些报告从teradata检索数据，由于有数百万行数据，报告速度非常慢。迁移到hadoop会解决这个问题吗？最佳答案 hadoopvsteradatawhatisthedifference可能重复.Hadoop系统的主要优势是商品硬件的可扩展性。正如@dnoeth在评论中指出的那样。Teradata还可以类似于Hadoop进行横向扩展。但它只能使用昂贵的服务器进行横向扩展。然而，Hadoop系统可以使用任何

Teradata hadoop section hive

java - 为什么我在 hadoop 的 mapreduce 中得到 3xx 重复项？

我正在使用hadoop的mapreduce从hdfs中读取一个文件，将其放入一个简单的解析器，然后将该解析器的输出写回到hdfs。我还没有reducetask。我想知道为什么我的输出文件中有大约300个重复项。这是我的map方法。publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{FileSplitfsplit=(FileSplit)reporter.getInputSplit();Mainparser=newMain();StringdatFi

mapreduce hadoop conf section code java hdfs

hadoop - Pig - 获取 Top n 并在 'other' 中休息

我有分组和聚合的数据，看起来像这样-DateCountryBrowserCount-----------------------2015-07-11,US,Chrome,132015-07-11,US,OperaMini,12015-07-11,US,Firefox,22015-07-11,US,IE,12015-07-11,US,Safari,1...2015-07-11,UK,ChromeMobile,10262015-07-11,UK,IE,4552015-07-11,UK,MobileSafari,47822015-07-11,UK,MobileFirefox,40...201

中休 amp 2015 browser 11 hadoop apache-pig hdfs

hadoop - 如何按字符解析Hive中的数据&

数据是这样的:fsid=4778&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&Incorrect=Falsefsid=3478&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&userid=10598&Incorrect=False我想看看我一共有多少fsid，一共有多少userid，很多记录都没有userid。我正在使用Hive，也许这不是最好的方法，如果这是一个平面文本文件，我知道如何

amp hadoop section userid amazon-web-services mapreduce hive

hadoop - Oozie Workflow 使用不正确的用户目录

我正在尝试执行同事编写的oozie工作流。我执行这个命令:ooziejob-config./job.properties-run我已经在job.properties中设置了参数，包括我的user.name，当我检查日志时，我可以看到工作流中使用的这些值-在我的hdfs目录中创建文件(例如exportDir=/user/${user.name}/ra_export)。但在工作流程的某个时刻，它因权限错误而失败，因为它试图修改我同事目录中的某些内容。它的行为就好像${user.name}被缓存在某个地方，并且正在使用旧值。有没有人见过这样的行为，如果有，解决方案是什么？更新:这是日志的失败

不正 Workflow code hadoop export sqoop oozie

hadoop - mapreduce 中的多个文件

我是mapreduce程序的新手。我正在关注TomwhiteHadoop权威指南。我正在做天气数据程序，我想在其中找到每年的最高温度。我有4个1901、1902、1904、1905年的文件，每年一个文件(我每年制作一个文件)。如何在mapreducemaper程序中设置四个输入文件。Hadoop安装在伪分布式模式下。请帮助我。最佳答案如果您使用的是hadoop流媒体，请尝试以下操作:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar\-inputmyInputD

mapreduce hadoop section

53 54 555657 58 59