草庐IT

CLOUDERA

全部标签

hadoop - pig : how to efficiently LOAD and FILTER a large dataset?

我有一个大型数据集,分成许多200GB的block。目前,我正在努力使用Pig处理数据。事实上,我的集群很小(4个节点)。我认为一个可能的瓶颈是当我加载数据时,因为我只需要我拥有的2TB数据中的一小部分。具体来说,我想知道是否加载整个数据集,然后过滤A=load‘data_part*’as(x,y);A=FILTERAbyx>0效率低于加载每个block,过滤每个block并将所有内容附加在一起A1=load‘data_part1’as(x,y);A1=FILTERA1byx>0A2=load‘data_part2’as(x,y);A2=FILTERA2byx>0A=UNIONA1,A

hadoop - Impala 的 ORC 文件格式

ORC文件格式可以在Impala中使用吗?还有如何访问存储在Impala中的hivemetastore中的ORC表。在文档链接下方找到,但它不包含任何受限制的文件格式列表或提及impala不支持的ORC:http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html 最佳答案 Impala不支持ORC。相反,ApacheParquet是获得最佳性能的推荐格式。 关于hadoop

hadoop - Cloudera 包版本含义

我正在浏览cloudera包组件的详细信息。在版本详细信息中,我无​​法理解cloudera添加到版本信息中的最后一个数字是什么。示例:LINK组件包版本ApacheAvroavro-1.7.6+cdh5.5.4+118 最佳答案 包版本中的最后一个数字是提交数。您可以在表中的更改文件部分找到提交。 关于hadoop-Cloudera包版本含义,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 多节点hadoop集群安装推荐

安装Hadoop1.0的最佳方式是什么(无论是Apachehadoop还是CDH)?CDH似乎有某种安装管理器,但不知何故,经过几个小时的搜索后,我无法在Web上找到好的信息。我只找到有关伪模式安装的文档。 最佳答案 只需访问Cloudera地点。他们都有ClouderaManager免费,这是非常好的开始点和独立CDH包裹。他们也有完整的setofdocumentation例如此类产品每个版本的安装指南。当然,我会推荐Cloudera博客和官方ApacheHadoop站点文档,以便更好地理解。

hadoop - Hive 没有完全遵守 core-site.xml 中的 fs.default.name/fs.defaultFS 值

我在一台名为hadoop的机器上安装了NameNode服务。core-site.xml文件的fs.defaultFS(等同于fs.default.name)设置如下:fs.defaultFShdfs://hadoop:8020我有一个名为test_table的非常简单的表,它当前存在于HDFS上的Hive服务器中。即存放在/user/hive/warehouse/test_table下。它是在Hive中使用一个非常简单的命令创建的:CREATETABLEnew_table(record_idINT);如果我尝试将数据加载到本地表中(即使用LOADDATALOCAL),一切都会按预期进行

hadoop - Apache Nifi MergeContent 输出数据不一致?

刚开始使用nifi。需要设计方面的帮助。我正在尝试在HDFS目录中使用虚拟csv文件(目前)创建一个简单的流,并将一些文本数据添加到每个流文件中的每条记录。传入文件:dummy1.csvdummy2.csvdummy3.csv内容:"EldonBaseforstackablestorageshelf,platinum",MuhammedMacIntyre,3,-213.25,38.94,35,Nunavut,Storage&Organization,0.8"1.7CubicFootCompact""Cube""OfficeRefrigerators",BarryFrench,293,4

hadoop - 如何将 Cloudera Hadoop "vbox"VMDK 转换为 VirtualBox VDI

大家好:我正在尝试在Virtualbox中运行ClouderaHadoopVM。首先,我注意到下载的是一个.vmdk文件。当然,这个后缀是针对VMWare的,所以有点奇怪。幸运的是,我在这里找到了关于如何将clouderavmdk转换为虚拟box文件的教程:http://www.ubuntugeek.com/howto-convert-vmware-image-to-virtualbox-image.html.但是,当我尝试使用convertdd将vmdk文件转换为虚拟box文件时,最终收到一条消息“无法写入磁盘镜像“cdh.vdi”VERR_DISK_FULL”所以我的问题是,如何在

java - 历史服务器未在 cloudera Hadoop 上启动

我已经按照here中给出的说明设置了“hadoop”.我成功下载并部署了它,并且能够运行除historyserver之外的所有守护进程并运行示例程序。当我运行sbin/yarn-daemon.shstarthistoryserver时,显示以下错误。Exceptioninthread"main"java.lang.NoClassDefFoundError:historyserverCausedby:java.lang.ClassNotFoundException:historyserveratjava.net.URLClassLoader$1.run(URLClassLoader.ja

hadoop -libjars 和 ClassNotFoundException

请帮忙,我卡住了。这是我运行作业的代码。hadoopjarmrjob.jarru.package.Main-fileshdfs://0.0.0.0:8020/MyCatalog/jars/metadata.csv-libjarshdfs://0.0.0.0:8020/MyCatalog/jars/opencsv.jar,hdfs://0.0.0.0:8020/MyCatalog/jars/gson.jar,hdfs://0.0.0.0:8020/MyCatalog/jars/my-utils.jar/MyCatalog/http_requests.seq-r-00000/MyCatal

java - mapreduce,排序值

我的映射器有一个输出:Mapper:KEY,VALUE(Timestamp,someOtherAttrbibutes)我的Reducer确实收到了:Reducer:KEY,Iterable我要Iterable按Timestamp属性排序。有没有实现的可能?我想避免在Reducer代码中进行手动排序。http://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/我将不得不从Iterable中“深度复制”所有对象,这会导致巨大的内存开销。: