HADOOP_NAMENODE_OPTS

java - 为什么我在 hadoop 的 mapreduce 中得到 3xx 重复项？

我正在使用hadoop的mapreduce从hdfs中读取一个文件，将其放入一个简单的解析器，然后将该解析器的输出写回到hdfs。我还没有reducetask。我想知道为什么我的输出文件中有大约300个重复项。这是我的map方法。publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{FileSplitfsplit=(FileSplit)reporter.getInputSplit();Mainparser=newMain();StringdatFi

hadoop - Pig - 获取 Top n 并在 'other' 中休息

我有分组和聚合的数据，看起来像这样-DateCountryBrowserCount-----------------------2015-07-11,US,Chrome,132015-07-11,US,OperaMini,12015-07-11,US,Firefox,22015-07-11,US,IE,12015-07-11,US,Safari,1...2015-07-11,UK,ChromeMobile,10262015-07-11,UK,IE,4552015-07-11,UK,MobileSafari,47822015-07-11,UK,MobileFirefox,40...201

中休 amp 2015 browser 11 hadoop apache-pig hdfs

hadoop - 如何按字符解析Hive中的数据&

数据是这样的:fsid=4778&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&Incorrect=Falsefsid=3478&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&userid=10598&Incorrect=False我想看看我一共有多少fsid，一共有多少userid，很多记录都没有userid。我正在使用Hive，也许这不是最好的方法，如果这是一个平面文本文件，我知道如何

amp hadoop section userid amazon-web-services mapreduce hive

hadoop - Oozie Workflow 使用不正确的用户目录

我正在尝试执行同事编写的oozie工作流。我执行这个命令:ooziejob-config./job.properties-run我已经在job.properties中设置了参数，包括我的user.name，当我检查日志时，我可以看到工作流中使用的这些值-在我的hdfs目录中创建文件(例如exportDir=/user/${user.name}/ra_export)。但在工作流程的某个时刻，它因权限错误而失败，因为它试图修改我同事目录中的某些内容。它的行为就好像${user.name}被缓存在某个地方，并且正在使用旧值。有没有人见过这样的行为，如果有，解决方案是什么？更新:这是日志的失败

不正 Workflow code hadoop export sqoop oozie

hadoop - mapreduce 中的多个文件

我是mapreduce程序的新手。我正在关注TomwhiteHadoop权威指南。我正在做天气数据程序，我想在其中找到每年的最高温度。我有4个1901、1902、1904、1905年的文件，每年一个文件(我每年制作一个文件)。如何在mapreducemaper程序中设置四个输入文件。Hadoop安装在伪分布式模式下。请帮助我。最佳答案如果您使用的是hadoop流媒体，请尝试以下操作:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar\-inputmyInputD

mapreduce hadoop section

Java Hadoop FileSystem 对象到 File 对象

我有一个将文件上传到S3的Java代码示例Filef=newFile("/home/myuser/test");TransferManagertransferManager=newTransferManager(credentials);MultipleFileUploadupload=transferManager.uploadDirectory("mybucket","test_folder",f,true);我实际上想从HDFS上传到S3。我不想做任何复杂的事情，所以我想知道我是否可以使用我已有的代码。那么有没有办法将HadoopFileSystem对象转换为File对象呢？像这

FileSystem Hadoop code section File java amazon-s3

hadoop - 考虑到 HDFS 中的复制，找出目录大小

有什么方法可以找出目录占用的原始HDFS空间。据我所知hdfsdfs-du-s/dir显示/dir大小，不考虑内部文件的复制。最佳答案运行命令hadoopfsck/dir并查找参数Averageblockreplication。将此数字乘以您从hdfsdfs-du-s/dir获得的结果。关于hadoop-考虑到HDFS中的复制，找出目录大小，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

找出 hadoop section code stackoverflow hdfs replication

hadoop - 将 50 个大文件中的列/字段合并到一个文件中

我想知道组合所有字段/列的有效方法多个文件合并为一个文件。对于每一个文件1:1,fname1,one2,fname2,two文件2:1,lname1,lone2,lname2,ltwo预期输出1,fname1,one,lname1,lone2,fname2,two,lname2,ltwo我有大约70个这样的文件，每个文件有超过1亿条记录和6列。目前我正在尝试使用hive连接来做到这一点。它似乎永远在运行——将近24小时并且仍在运行。我需要更好的解决方案。最佳答案以“朴素”的方式连接70个文件意味着Hive必须按顺序执行69个连接

大文 hadoop section code pre hive apache-pig

hadoop - Oozie 4.0.0 构建错误 - 无法解析 hcatalog 依赖项

Hadoop版本-1.2.1Maven版本-3.0.5配置单元版本-0.14.0pig版本-0.14.0当我开始使用以下命令构建oozie时./mkdistro.sh-DskipTests我得到以下错误[INFO]ApacheOozieShareLibSqoop......................SKIPPED[INFO]ApacheOozieShareLibStreaming..................SKIPPED[INFO]ApacheOozieShareLibDistcp.....................SKIPPED[INFO]ApacheOozieW

hcatalog hadoop INFO hive oozie

hadoop - 使用自动化脚本配置 AWS 集群

我们正在寻找一个自动化脚本的可能性，我们可以给出我们需要多少主节点和数据节点，它会配置一个集群。可能在属性文件中提供凭据。目前我们的做法是登录控制台配置Hadoop集群。如果能有一种自动化的方法来解决它，那就太好了。最佳答案我已经看到使用Foreman做得非常好,Chef,和AmbariBlueprints.Foreman用于配置VM，Chef脚本用于安装Ambari、配置Ambari蓝图，并使用蓝图创建集群。关于hadoop-使用自动化脚本配置AWS集群，我们在StackOver

hadoop AWS section noreferrer noopener amazon-web-services automation hortonworks-data-platform

35 36 373839 40 41