hadoop-worker

hadoop - 在 Pig 中加载文件并将其转换为带分隔符的一行

我需要你的帮助来输出我在Pig中加载的文件，其中包含如下数据:AAAA,message1BBBB,message2CCCC,message3DDDD,message4我需要做的就是得到这样的输出AAAA,message1,BBBB,message2,CCCC,message3,DDDD,message4此输出我将在其他pigudf之后使用它..谢谢你的帮助最佳答案输入:AAAA,message1BBBB,message2CCCC,message3DDDD,message4pig脚本:A=LOAD'input.csv'USINGP

中加载文 message section strong hadoop apache-pig

hadoop - 无法从主机访问到cloudera WEBHDFS( guest )

我已经阅读了所有这些链接中的WebHdfslink1link2link3使用telnet检查-端口已打开在cloudera(virtualbox)中进行必要的设置以启用webhdfs直接在cloudera上进行测试:[cloudera@quickstart~]$curl-i-L"http://10.0.0.88:50070/webhdfs/v1/user/cloudera/testdir/testFile?op=OPEN"HTTP/1.1307TEMPORARY_REDIRECThttp://quickstart.cloudera:50075/webhdfs/v1/user/cloud

cloudera WEBHDFS 34 code hadoop

hadoop - 无法打开cloudera管理器

我是大数据和hadoop的新手，我制作了一个名为test的文件，其中包含helloworld内容，我想在尝试此操作时将其上传到文件浏览器中，它给了我一个错误，我试图通过在此搜索答案来解决它网站，我发现问题出在群集“clouderamanager”中，当我尝试打开它时，它给了我一条消息，强烈建议使用10个Rams，但如果你想强制打开，请使用命令force“我的电脑是6gram并且在下载系统时建议使用8gram总线我给虚拟机5.5gram并且它在使用系统时很灵活那么问题是什么以及我如何强制启动cloudera管理器？最佳答案启动终端

cloudera hadoop section 入门 bigdata data-science cloudera-manager

hadoop - Lzo 文件不会在配置单元作业中拆分

我们在s3中有3个.lzo文件和相应的.index文件。我们正在这些文件的目录上创建一个外部表。每个lzo文件的大小为100MB+，每个文件的未压缩大小为800+MBblock大小为128MB。当我们运行配置单元查询时，不幸的是只有3个映射器被生成，这表明没有发生split，可能是什么问题？最佳答案 Splittable仅在压缩文件的大小大于拆分大小时适用。Hive默认拆分大小为256MB。在Hivesession中修改拆分大小并运行查询。setmapreduce.input.fileinputformat.split.minsi

配置单 hadoop section stackoverflow amazon-web-services amazon-s3 hive lzo

hadoop - hive外部表有什么意义？

第1步。我创建了一个配置单元外部表“test”，并给出了一些位置，例如“/user/hive2”。第2步。我在“测试”表中加载一个文件。第3步。我做了一个select*fromtest。我得到了我的记录。第四步，我通过droptabletest来droptable。第5步。我确实从测试中选择*，但未找到表。那么使用externaltable有什么意义呢？如果删除了“测试”表的元数据并且我无法在其上查询任何内容，那么我们为什么要使用外部表？最佳答案 @Nishant:在本论坛中提出一般性问题之前，您应该做一些功课。无论如何，这里有一

hadoop hive section 配置单 stackoverflow mapreduce

hadoop - 无法在 Hive 上对表进行分区 - 元数据错误

我在Hive中创建了一个表，其中加载了数据。我想根据Columnspec:DoJ对其进行分区，其中值为2012我用过:ALTERTABLEemployeeADDPARTITION(year='2012')location'/home/rvarun/2012/part2012';我收到错误:FAILED:Errorinmetadata:tableisnotpartitionedbutpartitionspecexists:{year=2012}FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTa

hadoop Hive section code 2012 partition

hadoop - 在 Pig 中按两列聚合数据分组

我有这些数据，需要按两列分组，然后对其他两个字段求和。假设这四列的名称是:OS,device,view,click。我基本上想知道每个操作系统和设备的计数，它们有多少次查看以及有多少次点击。(2,3346,1,)(3,3953,1,1)(25,4840,1,1)(2,94840,1,1)(14,0526,1,1)(37,4864,1,)(2,7353,1,)这是我目前的情况Aisdata:OS,device,view,clickB=GROUPABY(OS,device);Result=FOREACHB{GENERATEgroupASOS,device,SUM(view)ASvisits

hadoop Pig device section click hive apache-pig

java - Hadoop 独立模式给出连接错误

当我在独立模式下运行以下命令时，*phoenix@phoenix-Aspire-E1-570:/usr/local/hadoop$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jargrepinputoutput'dfs[a-z.]+'*它给我以下错误，15/12/0622:45:45INFOclient.RMProxy:ConnectingtoResourceManageratlocalhost/127.0.0.1:803215/12/0622:45:46INFOipc.Client:Retry

Hadoop java section RetryUpToMaximumCountWithFixedSle linux mapreduce

hadoop - MapReduce 现实生活中的用途

我怀疑在哪些情况下，选择MapReduce而不是hive或pig。我知道是什么时候用的我们需要对输入数据进行深度过滤。处理非结构化数据。使用图表。....但是有什么地方我们不能使用hive、pig或者我们可以使用MapReduce更好地工作并且它在实际项目中被广泛使用最佳答案 Hive和Pig是通用解决方案，它们在处理数据时会产生开销。大多数情况下它可以忽略不计，但在某些情况下它可能相当大。如果需要join的表很多，使用Hive和Pig尽量采用通用的方案，如果在了解数据后使用mapreduce，可以想出更优的方案。然而，mapre

MapReduce 用途 section 结构化 hadoop hive apache-pig

hadoop - Reducer 数量和输出顺序

当我使用函数job.setNumReduceTasks(1);时，我得到按键排序的输出。但是，当我删除此功能时，输出不会按键排序。那么，当我们有多个reducer任务时，我们是否应该期望从reducer获得排序的输出？谢谢。最佳答案输出在单个Reducer中按键排序。然而，默认的Partitioner是哈希函数的结果，因此虽然每个文件在使用多个Reducer时都会被排序，但一个文件不会是最后一个文件的排序延续。例如:我们有一个包含三个Reducer的字数统计作业。映射器输出:(A,1)(zebra,1)(bat,1)(zebra

Reducer hadoop code section mapreduce

59 60 616263 64 65