hadoop-mapreduce

hadoop - Hive 查询在 Hive 客户端和 JDBC 中的执行方式不同

我通过Hive客户端、Java程序JDBC和直线执行的以下查询。SELECT*FROMTABLE_ONEASt1JOINTABLE_TWOt2ONt2.p_id=t1.p_idANDt2.p_n_id=t1.p_n_idANDt2.d_id=t1.d_idJOINTABLE_THREEt3ONt3.d_m_id=t1.d_m_idANDt3.d_p_id=t1.d_p_idJOINTABLE_FOURt4ONt4.c_id=t1.c_idJOINTABLE_FIVEt5ONt5.a_n_id=t1.a_n_idJOINTABLE_SIXt6ONt6.d_p_p_s_id=t1.d_p_

hadoop - 在 Hadoop 中，如何找到哪个从节点正在执行 N 次尝试？

我正在使用Hadoop1.2.1，但我的hadoop应用程序无法执行Reduce。从Hadoop运行中，我看到如下消息:15/05/2218:14:15INFOmapred.JobClient:map0%reduce0%15/05/2218:14:25INFOmapred.JobClient:map100%reduce0%15/05/2218:24:25INFOmapred.JobClient:map0%reduce0%15/05/2218:24:26INFOmapred.JobClient:TaskId:attempt_201505221804_0013_m_000000_0,Sta

hadoop section code JobClient

python - Mapreduce:数据到节点的复杂分布

我在hadoop方面没有实际经验--我只学了一些理论。我面临的任务是使用集群处理一个巨大的CSV文件(比内存大得多)，我想出了以下过程。假设csv文件包含3亿行，我将1-1亿行称为第1部分，将101-2亿行称为第2部分，将201-3亿行称为第3部分。(这只是一个例子，因为在实践中数据必须被分割成更多的部分以便在内存中处理)我想按以下方式将数据分发到节点上。节点号数据获取节点1只有第1部分节点2只有第2部分节点3只有第3部分节点4第1部分和第2部分节点5第2部分和第3部分节点6第1部分和第3部分您会看到一些节点只获取数据的一部分，而一些节点获取2部分数据。根据这一点，两个函数之一应用于每

Mapreduce python block hadoop section cluster-computing hadoop-streaming

hadoop - 根据列的子集过滤掉重复的行

我有一些看起来像这样的数据:ID,DateTime,Category,SubCategoryX01,2014-02-13T12:36:14,Clothes,TshirtsX01,2014-02-13T12:37:16,Clothes,TshirtsX01,2014-02-13T12:38:33,Shoes,RunningX02,2014-02-13T12:39:23,Shoes,RunningX02,2014-02-13T12:40:42,Books,FictionX02,2014-02-13T12:41:04,Books,Fiction我想做的是像这样及时保留每个数据点的一个实例(我

hadoop 的 section code 2014 hive hiveql

bash - 在 bash 脚本中使用 expr 时 hadoop 流式传输出错

我正在使用Hadoop流处理工作。我的映射器是用bash编写的。它使用job_id。mapred_job_id=`echo"$mapred_job_id"|awk-F"_"'{print$NF}'`它工作正常(为调试目的启动一个愚蠢的wordcound映射器操作)直到我有以下行导致作业崩溃:mapred_job_id=`expr$mapred_job_id\*2`错误是:INFOmapreduce.Job:TaskId:attempt_1432766867252_0019_m_000007_0,Status:FAILEDError:java.lang.RuntimeException:

流式 bash code mapred mapred_job_id hadoop hadoop-streaming vowpalwabbit

java - 如何让 hadoop 忽略\n 输入文件中的字符？

我正在使用Hadoop的mapreduce函数编写倒排索引创建器。我的输入文件中的某些行已将字符\n作为实际字符写入其中(不是ASCII10，而是两个实际字符“\”和“n”)。出于某种我不明白的原因，这似乎导致map函数将我的行分成两行。这是我的一些文件中的一些示例行。32155:WyldwoodRadio:OntheMoveWILLbeginonFridayMay1st,asoriginallyplanned!\n\nWehadsomecomplicationswith...http://t.co/g8STpuHn5Q5:RT@immoumita:#SaveJalSatyagrahi

hadoop java Text location frequencies string io newline

Hadoop DataNode 内存消耗和 GC 行为

最近，我们的集群(CDH5.3.1)遇到了问题，这体现在NameNode和DataNode中，GC周期从30秒到几分钟不等。JVM设置仍然是默认设置，但鉴于我们的集群同时增长到3400万个block，这种行为是可以解释的。对于NN，对堆大小的简单调整和对GC设置的其他小调整(例如新生代大小、幸存者比率)再次让我们获得了可预测的短GC暂停。然而，对于DN，我们仍然遭受周期性的长时间GC暂停。我观察到异常长的GC暂停每6小时发生一次(FullGC)。现在我假设Cloudera将blockreport间隔dfs.blockreport.intervalMsec的默认值设置为6小时促成了这种模

DataNode Hadoop section noreferrer noopener garbage-collection jvm

hadoop - HBASE 安装 - 获取 ZOOKEPER 相关错误

我可以转到hbase提示符，但是当我尝试创建表时出现以下错误:ERRORzookeeper.ZooKeeperWatcher:hconnectionReceivedunexpectedKeeperException,re-throwingexceptionorg.apache.zookeeper.KeeperException$ConnectionLossException:KeeperErrorCode=ConnectionLossfor/hbase/masteratorg.apache.zookeeper.KeeperException.create(KeeperException

ZOOKEPER hadoop property gt lt hbase apache-zookeeper

hadoop - 混淆 hadoop、giraph 和 twister

我正在研究大数据，我的项目由具有文本数据的图表组成。我必须在一个项目本身中计算顶点之间的相似性、跳数概率、连接组件的数量、页面排名向量和随机游走。我在hadoop中实现了它们，但我认为它需要更多时间(图形有2500个节点、4000个边、600个连接的组件需要25分钟)所以什么是实现这些的最佳选择，apachehadoop或apachegiraph或apachetwister？最佳答案查找连接组件、页面排名计算和随机游走是迭代算法的示例。传统的Map-Reduce编程模型不是迭代算法(特别是图形算法)的好选择。原因是在map-re

hadoop 混淆 section apache mapreduce hadoop2 giraph

hadoop - 在 Crontab 上安排 Hive 查询

任何人都可以帮助我在Crontab中安排一项工作，该工作将在特定时间执行一个简单的Hive查询并以文本/日志文件的形式提供给我输出。我创建了一个批处理脚本来执行选择查询，但在Crontab中执行时出现错误(“未找到Hive命令”)。但是，相同的脚本通过shell运行良好。下面是我的脚本:ip.sh#!/bin/bashecho"StartingofJob"cd/home/hadoop/work/hive/binhive-e'select*frommytest.empl'echo"Scriptendshere"定时任务表:10****/home/hadoop/work/ip.sh>>/h

Crontab hadoop section code hive hiveql

25 26 272829 30 31