hadoop-release

java - Hadoop 在命令行上执行时生成空输出文件

Driver.javapackagedriver;importjava.io.IOException;importmapper.NormalMapper;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapred.FileInputFormat;importorg.apache.hadoop.mapred.FileOutputFormat;importorg.apache.hadoop.mapred.JobClient;importorg.apache.ha

行时 Hadoop mapreduce INFO job java eclipse cloudera

hadoop - 不能在 PigStorage LOAD 中同时使用 -tagPath 和 schema

我对PigStorage及其-tagPath选项有一个有趣的行为，我不知道我是否做错了什么(模式定义错误？)或如果这是Pig中的限制/错误。我的文件看起来像这样(最基本的，我能想到的):AB现在我可以像这样加载和子选择这个文件了:vals=LOAD'/user/guest/test.txt'USINGPigStorage(';')AS(char:chararray);DUMPvalsone_column=FOREACHvalsGENERATEchar;DUMPone_column结果:(A)(B)(A)(B)但是，当我尝试使用-tagPath获取文件路径时(我在访问整个数据文件夹时需要

PigStorage tagPath code pre section hadoop apache-pig

hadoop - 为 julia 安装 HDFS 接口(interface)包

我是Julia语言的新手，觉得它很有趣。正如它所说的那样，它已经准备好hadoop我想使用我的本地hadoop集群来测试它。我在我的debian32位机器上安装了最新版本的julia，并编写了一些简单的脚本，类似于Helloworld之类的东西。现在，我已经从下面的站点中提取了HDFS和YARN接口(interface)包https://github.com/JuliaParallel/HDFS.jlhttps://github.com/JuliaParallel/Elly.jl不知道如何在我的机器上安装这些并使用这些包来查询HDFS集群并运行一些map-reduce任务。任何指针在这

interface hadoop section JuliaParallel https julia

java - 使用 hadoop 进行数据分析

我有一个关于在我的一个项目中实现hadoop的问题。基本上要求是，我们每天都会收到大量日志，其中包含有关视频的信息(播放时间、停止时间、哪个用户播放等)。我们要做的是分析这些文件并返回统计数据以响应HTTP请求。请求示例:http://somesite/requestData?startDate=someDate&endDate=anotherDate.基本上，此请求要求计算在一个日期范围内播放的所有视频的数量。我的问题是我们可以使用hadoop来解决这个问题吗？我读过各种文章，hadoop不是实时的。那么要处理这种情况，我应该将hadoop与MySQL结合使用吗？我想做的是在mysq

hadoop java section strong mysql hive analytics

hadoop - 错误 2999 : Unexpected internal error. java.net.URISyntaxException:绝对 URI 中的相对路径

pig-paramCURR_TS=`date"+%F%H:%M:%S"`-fpig_script.pig运行后出现错误-错误2999:意外的内部错误。java.net.URISyntaxException:绝对URI中的相对路径:04:36:33我知道问题出在“:”冒号上，但我想要的是使用由参数传递给pig的相同时间戳格式，以便我可以使用它来执行某些操作。谢谢最佳答案 1)尝试声明变量给exportdateFormat=`date"+%F%H:%M:%S"`然后通过传递参数值运行pig脚本。pig-xlocal-fread_tes

URISyntaxException Unexpected section pig strong hadoop apache-pig

hadoop - 将数据写入hadoop的最有效方式

我是HadoopHDFS的新手。我正在尝试学习如何将从本地文件读取的数据写入hadoopHDFS。我想知道如何高效地写作。请帮忙最佳答案你可以这样试试hadoopfs-putlocalpathhdfspath示例hadoopfs-put/user/sample.txt/sample.txt你可以google它来找到更多的hdfs命令。引用here 关于hadoop-将数据写入hadoop的最有效方式，我们在StackOverflow上找到一个类似的问题：

hadoop 将 section strong hdfs

hadoop - 我尝试启动 HBase

我尝试运行start-hbase.sh。但是……dream@dream-VirtualBox:/usr/local/hbase/bin$cat~/.bashrc|tail-n2exportPATH=$PATH:/usr/local/hadoop/sbin/:/usr/local/hadoop/bin/:/usr/local/hbase/bin/:/usr/local/mahout/bin/exportJAVA_HOME=/usr/lib/jvm/java-7-oracledream@dream-VirtualBox:/usr/local/hbase/bin$source~/.bashr

hadoop HBase local usr

windows - 在 Windows 7 上构建 Hadoop，无法复制文件

试图在Windows上安装hadoop2.7.1，这是一场噩梦，但终于到了分发部分无法构建的部分。似乎无法弄清楚为什么它不会复制文件，堆栈跟踪如下:(这也是权限错误吗？)main:Property"@"hasnotbeensetProperty"@"hasnotbeenset[exec]CurrentOSisWindows7[exec]Executing'sh'witharguments:[exec]'./dist-layout-stitching.sh'[exec][exec]The'charactersaroundtheexecutableandargumentsare[exec]

windows hadoop apache java

hadoop - Tableau、Hadoop 和 Birt

我试图将数据从SQL数据库迁移到Hadoop。我已经通过配置Hive、HBase和Hadoop成功地做到了这一点。我的问题是，我将Birt&Tableau与我的SQL数据库一起使用，并且能够在5-10分钟内加载1000万条数据，但我新配置的Hadoop、Hive和HBase系统需要大约50分钟才能获取1000万条条目.我怎样才能提高这种性能？Hadoop是专门为海量数据处理而开发的，为什么我做不到？性能有什么特殊配置吗？最佳答案经过大量研究并为了回答这个问题，我也通过了HDP。然后我遇到一个场景，我们无法比较SQLDb和Hado

Tableau hadoop section SQL hive hbase birt tableau-api

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据，并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大，在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

时出 hadoop section code hive orc tez

163 164 165166167 168 169