work_base

hadoop - HTTP ://localhost:50070/web UI doesn't work

我也在使用最新版本的Hadoop和java。在为hadoop的各个构建block(HDFS、mapreduce、yarn)配置所有文件后，我格式化了名称节点并发送了以下命令sbin/start-all.sh回车后，我在firefox浏览器输入http://localhost:50070/.我收到“无法连接”错误。我如何访问hadoop的WebUI。注意:我目前使用的是Ubuntu18.04 最佳答案 Hadoop的更高版本，即3.x.x；50070已更改为9870。所以，在浏览器中输入本地主机:9870

hadoop - 错误 2103 : doing work on Longs

我有数据storetrn_datedept_idsale_amt12014-12-151011000765512014-12-151011000765412014-12-151011000754462014-12-1510410008654482014-12-14101100000082014-12-15101100865761我正在尝试使用以下代码聚合数据-加载数据(尝试使用HCatLoader()和PigStorage()两种方式)data=LOAD'data'USINGorg.apache.hcatalog.pig.HCatLoader();group_table=GROUPda

hadoop doing apache java apache-pig

RLive : Only simple `select` works?

我在CentOS(Linux2.6.32-431.5.1.el6.x86_64)上使用Hadoop2.2.0.2.0.6.0-101运行RHive(https://github.com/nexr/RHive)RHive可以进行基本的select查询:rhive.query("select*fromsimple")并且RHive无法执行带条件的查询。例如:rhive.query("select*fromsimpleorderbyrating")Error:java.sql.SQLException:Errorwhileprocessingstatement:FAILED:Executio

simple select section code blockquote r hadoop

hadoop - pig : Create new column based off of two other columns

我想知道是否有可能在pig身上做这样的事情:一共有三列:“类型1”、“类型2”、“类型3”B101,159,74我想这样定义C列:如果A=="type1"那么C=B;否则C=0这在pig身上可能吗？最佳答案是的，这是可能的。你可以这样写:data=LOAD'$dataSource'usingAvroStorage();--data={A,B}data2=FOREACHdataGENERATEA,B,(A=='type1'?B:0)ASC;dumpdata2; 关于hadoop-pig

columns hadoop section data stackoverflow apache-pig bigdata

java - 在 Horton Works 沙盒上运行 Modified Wordcount 程序时需要帮助。

我在运行修改版的Wordcount程序时遇到错误(添加了映射器逻辑以将符号与单词分开)。错误:java.lang.RuntimeException:java.lang.ClassNotFoundException:类wcount.WordCount$TokenizerMapper操作系统:HortonWorksSandboxhosting2.6Hadoop版本这是我所做的-修改Wordcount.java以引入映射器逻辑使用命令编译了Wordcount.javajavac-classpath/home/test_user/jars/commons-cli-1.2.jar:/home/t

Wordcount Modified code IntWritable hadoop java jar word-count hortonworks-data-platform

multithreading - 50 个线程限制后的 NetBeans 探查器 "stops working"？

我正在尝试使用NetBeans7.1探查器来探查运行一系列hadoop任务(本地、单进程)的程序，但每个任务都是在单独的线程中启动的。我已将我的根方法设置为我正在使用的Mapper和Reducer的map和reduce方法，但似乎在线程50之后，netbeans分析器就停止了分析。它无法识别何时再次调用根方法。实时结果停止，我最后得到的快照似乎只包含前几个任务的数据。有谁知道为什么会发生这种情况或如何解决？谢谢最佳答案我找到了。在高级设置下有一个“LimitNumberofProfiledThreads”设置，默认设置为32

multithreading amp section stackoverflow questions netbeans hadoop profiler

hadoop - PIG 拉丁语 : Output Path based on Field Value

我有一个日志文件，其中包含来自多个域的日志。现在我想对它们进行一些分析并将输出存储在一个名为域的目录中。我在日志中将域作为字段值:STOREoutputlogsINTO'testpath/DOMAIN/logsUSING....这可能吗？或者我只能将输出存储在硬编码文件路径中吗？最佳答案如果域的名称是outputlogs中的一个字段，那么您可以使用MultiStorage从存钱jar。像这样的东西:STOREoutputlogsINTO'testpath/DOMAIN/logs'USINGMultiStorage('testpa

拉丁语 hadoop section code MultiStorage apache-pig

hadoop - Apache pig : filter based on tupple member content

我正在学习ApachePig，在实现我的愿望时遇到了问题。我有这个对象(在执行GROUPBY之后):MLSET_1:{groupchararray,MLSET:{(key:chararray,text:chararray)}}我只想在某个模式(PATTERN_A)出现在文本中并且另一个模式(PATTERN_B)未出现在一个键的文本字段中时才生成key。我知道我可以使用MLSET.text获取特定键的所有文本值的元组，但是关于如何从元组中筛选项目列表，我仍然遇到同样的问题。这是一个例子:(key_A,{(key_A,start),(key_A,stop),(key_A,unknown),

content hadoop key section MLSET apache-pig

hadoop - LAN 虚拟机上的 Web 应用程序 : curl -L works from other vms, 浏览器/主机上的 curl 没有

我正在我的LAN上设置Hadoop虚拟机集群，其中一个虚拟机(ResourceManager)上的进程提供了一个表现出奇怪行为的WebUI。所有虚拟机都从我的桌面运行，并已分配ips。我定位的URL是resourcemanager:8088，这是行为。从我桌面上运行的其他虚拟机:curl-vresourcemanager:8088返回HTTP302Found响应，Location:http://resourcemanager:8088/cluster。向上看，我看到这是一个重定向，curl-Lresourcemanager:8088成功检索到HTML。从运行虚拟机的桌面:尝试从(Chr

机上 curl code resourcemanager section hadoop networking port hadoop-yarn

hadoop - 配置单元 : group column based on max value

我有一个包含字段的表datevalue10-02-19002309-05-19012210-03-19001010-02-190124....我必须返回每年的最大值即，190023190124我尝试了以下查询，但得到了错误的答案。SELECTYEAR(FROM_UNIXTIME(UNIX_TIMESTAMP(date,'dd-mm-yyyy')))asdate,MAX(value)FROMtebGROUPBYdate;有人可以建议我查询吗？最佳答案选项1selectyear(from_unixtime(unix_timestam

配置单 hadoop code pre section hive hiveql

248 249 250251252 253 254