HADOOP_PREFIX

hadoop - 使用flume将数据存储到linux本地目录

是否可以使用flume从oracle获取数据并将其存储在Linux本地文件夹中，而不是hdfs中？最佳答案使用“FileRollSink”，您可以将流式数据存储到本地系统。但是Flume不能用于从任何RDMS工具中摄取数据。关于hadoop-使用flume将数据存储到linux本地目录，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/17718778/

algorithm - 使用 Hadoop 记录关联/聚类

我们的Hadoop集群每天摄取数TB的网络日志。每条日志记录都包含用户IP地址、cookieID等信息。但是，不同的IP地址和cookieID可以对应一个物理用户(家庭/工作计算机等)。我们设计了一个函数来计算任何一对记录的匹配分数，分数越高意味着两条记录对应一个物理用户的概率越高。目标是使用评分函数将所有记录分成可能对应于一个物理用户的组，并通过唯一的组ID(即物理用户ID)标记组中的所有记录。使用Hadoop/Mahout实现此逻辑的最佳方法是什么？最佳答案首先，我假设您知道如何链接MapReduce作业。如果没有，请参阅h

algorithm Hadoop 的 section reduce machine-learning data-mining cluster-analysis

hadoop - 亚马逊弹性 map 减少 : Command Line Tools installation Issue?

我是Amazon网络服务的新手，我正在尝试使用命令行界面工具在Amazonelasticmapreduce作业上运行作业流。我遵循了这个developerguide的亚马逊开发者指南中的步骤来自aws。但我还不清楚。如果我执行命令来列出作业流程。显示以下错误。:~/Applications/elastic-mapreduce-ruby$elastic-mapreduce--listError:Requesthasexpired.Timestampdate:2013-07-09T01:13:42-07:00在此先感谢，任何人都可以告诉我为什么我在列出工作流程时遇到上述错误。

installation Command section elastic 作业流程 hadoop amazon-web-services cloudera elastic-map-reduce ganglia

Hadoop命令行解释

谁能给我解释一下这个语法，bin/hadoopjarhadoop*examples*.jarwordcount/user/hpuser/testHadoop/user/hpuser/testHadoop-output为什么我们在bin/hadoop之后很快就使用jarhadoop*examples*.jar是什么意思..？wordcount是工作的名称，还是我们要求hadoop计算单词数..？http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

Hadoop 命令行 code section hadoop-partitioning

hadoop - 为什么 "hadoop -jar"命令只启动本地作业？

我在提交作业时错误地使用了“hadoop-jar”而不是“hadoopjar”。在这种情况下，我的jar包不能提交到集群，只会启动“localjobrunner”，这让我很纳闷。有谁知道原因吗？或者“hadoopjar”和“hadoop-jar”命令之间的区别？谢谢! 最佳答案 /usr/bin/hadoopjar是您的Hadoop的$HADOOP_HOME/bin/hadoop脚本需要作为参数的内容，其中$HADOOP_HOME是您保存hadoop相关文件的位置。hadoop脚本摘录elif["$COMMAND"="jar"];t

hadoop amp section jar mapreduce

hadoop - 在 Hive 中只显示一次 [优雅的方式]

如何使用内置的DateandTimefunctions只显示一次日期在mysql中我们可以做selectcurdate();得到+------------+|curdate()|+------------+|2013-07-23|+------------+尝试selectunixtime();在Hive中给我FAILED:ParseExceptionline1:17mismatchedinput''expectingFROMnear')'infromclause正在做，selectfrom_unixtime(unix_timestamp(),"yyyy-MM-hh")fromabc.

hadoop Hive code section strong cloudera hiveql

hadoop - 要求澄清一些 HDFS 概念

我不确定这个问题是否属于这里。如果没有，那我道歉。我正在阅读HDFS论文，发现很难理解一些术语。请在下面找到我的问题。1)根据该论文，“HDFS命名空间是文件和目录的层次结构。文件和目录在NameNode上由inode表示，它记录权限、修改和访问时间、命名空间和磁盘空间配额等属性。“inode中的命名空间信息到底是什么意思？是指文件的完整路径吗？因为，前面的语句说“HDFS命名空间是文件和目录的层次结构”。2)根据论文“NameNode维护命名空间树和文件block到DataNode的映射(文件数据的物理位置)。”namespacetree和namespace一样吗？关于namespa

澄清 hadoop namespace blockquote 命名 mapreduce hdfs

java - Hadoop Map/Reduce WARN mapred.LocalJobRunner : job_local_0001 java. io.EOFException？

在Eclipse6.91中运行Hadoop0.20.2M/R应用。我在执行后收到这些错误和警告:13/07/2416:52:52INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=13/07/2416:52:52WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/07/2416:52:52WARNmapred.Jo

java LocalJobRunner mapred apache hadoop mapreduce

hadoop - 从 HDFS 加载数据不适用于 Elephantbird

我正在尝试使用elephantbirdinpig处理数据，但我没有成功加载数据。这是我的pig脚本:register'lib/elephant-bird-core-3.0.9.jar';register'lib/elephant-bird-pig-3.0.9.jar';register'lib/google-collections-1.0.jar';register'lib/json-simple-1.1.jar';twitter=LOAD'statuses.log.2013-04-01-00'USINGcom.twitter.elephantbird.pig.load.JsonLoa

Elephantbird hadoop apache executionengine apache-pig cloudera

api - 最容易学习的 API/创建用于在 hadoop 上运行 mapreduce 的 Web 应用程序的方法？

我在我的ubuntu11.04上运行hadoop1.0.4，配置了eclipse我想制作一个web应用程序来运行hadoop作业，或者可能是Cassandra，Hbase和Hive可能是一种方式，但我没有太多时间彻底学习所有这些，我想尽快做到这一点。有什么建议可能被证明是最容易上手的吗？最佳答案我不知道这个问题是否真的有资格以目前的形式出现在SO上。这就是我最初没有写这篇文章的原因。但是，很多SO专家都在那里决定这个(他们可以比我做得更好):)说到这里，我想根据我的亲身经历，跟大家分享几点，让大家朝着正确的道路前行。首先，Had

mapreduce hadoop strong section noreferrer api web-applications

84 85 868788 89 90