草庐IT

hadoop - SQL 到 MapReduce - 怎么做?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我在ETL过程中使用了一个复杂的查询(基于SQL)。它太大了,放不下,但通常几个表和一些使用窗口函数和其他“好东西”的BL之间的内部连接很少。我需要将它移植到HadoopMapReduce。只需将FROM案例中的所有表转储为CSV格式并将文件j带到HDFS。然后编写复制SQL中实现的逻辑的MapReduce作业。我想知道:在将SQL移植到MapReduce时,是否有任何我应该注意的最佳实践

hadoop - Namenode如何决定在哪个datanode中写入一个 block

我只是想知道这个。假设我正在将一个80GB的文件复制到HDFS,并且我的block大小是64MB。现在在收集了一个block的数据后,名称节点将block写入数据节点。这是我的问题:名称节点以何种方式选择应将block写入哪个数据节点。是随机选择还是循环选择? 最佳答案 NameNode会根据负载分配因子选择datanode上的block。它将以平衡所有正在运行的数据节点上的负载的方式选择block。此外,NameNode不会收集一个block的数据并将其写入数据节点。当向NameNode发送写请求时,它会分配要写入各个数据节点的b

sql - 如何在 PIG 中完整外连接表和总结

我在HDFS上有2个数据集,它们以Tab分隔:A--------DATEPAGEVIEWSCLICKS2014/01/21200502014/01/22300702014/01/23150100B--------DATEPAGEVIEWSCLICKS2014/01/2350252014/01/24250110我想合并这两个数据集以产生以下结果:C--------DATEPAGEVIEWSCLICKS2014/01/21200502014/01/22300702014/01/232001252014/01/24250110如您所见,最终数据集C从A和B中获得了2014/01/23的聚合数

hadoop - 在 Hadoop 文件系统中复制本地文件

以编程方式在HDFS中复制文件的最快方法是什么?我尝试了DistCp但无法获得合适的内容 最佳答案 distcp对于localfFS到HDFS和HDFS到HDFS复制来说工作得很好。然而,它并没有为我们提供MapReduce的高并行性的好处,因为输入数据驻留在localFS(非分布式存储)而不是HDFS上。因此,使用两者中的任何一个都会给你几乎相同的性能,这显然取决于输入数据的硬件和大小。顺便说一句,DistCpbutcouldn'tgettheappropriatecontent是什么意思?

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

python - 为什么配置单元试图在 hdfs 中写入/用户?

使用如下所示的简单HiveQL查询:SELECTevent_typeFROM{{table}}wheredt=20140103limit10;{{table}}部分只是通过Jinja2使用的运行器代码插入。我正在使用来自python的subprocess.Popen在配置单元命令行上使用-e标志运行我的查询。出于某种原因,此设置试图写入HDFS中的常规/user目录?Sudo命令无效。产生的错误如下:JobSubmissionfailedwithexception:org.apache.hadoop.security.AccessControlException(Permissiond

hadoop - 在 HDFS 中移动文件的最佳实践或工具

我们正在map-reduce上进行POC以计算我们应用程序的模块使用情况。应用程序在位于单独盒子上的J2EE容器上运行,hadoop安装在单独的盒子上,我们需要将日志文件从应用程序容器盒子移动到hadoop盒子。下面提到的是一些需要帮助/建议的查询。有什么工具/框架可以将日志文件从多个位置移动到HDFS?什么是最佳实践?如何运行移动文件的作业?移动到HDFS应该是cron作业还是文件大小触发器? 最佳答案 您需要ApacheFlume。Flume是一种流行的标准工具,用于将日志文件移动到HadoopHDFS中。它可以作为cron作业

hadoop - Hadoop 中需要 "runuser hdfs -s/bin/bash/bin/bash"

我是hadoop的新手,正在关注这个link在Fedora20中安装它。这篇文章中有一个命令:runuserhdfs-s/bin/bash/bin/bash-c"hadoopfs-mkdir/user/"在这部分命令中,我们在HDFS中创建一个目录:"hadoopfs-mkdir/user/"但是我无法理解上面命令的这一部分的用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash请告诉我这个命令的确切用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash 最佳答案 这有点令人困惑,

hadoop - Hadoop什么时候开始shuffle

我对洗牌何时开始有疑问。假设我有2个映射器和1个缩减器。每个映射器将生成输出map1和map2。这个map1和map2存储在各自datanode的临时磁盘中。现在reducer应该等待map1和map2的输出?换句话说,什么时候开始洗牌?一旦map1完成还是必须等待map2也完成?我正在收听reducer的改组流量,但我找不到任何流量,但控制台输出显示已经完成了70%(大约)的减少。14/12/1817:45:55INFOmapred.JobClient:map97%reduce22%14/12/1817:45:58INFOmapred.JobClient:map98%reduce22

java - 如何使用Java代码将文件上传和下载到hdfs

我是hadoop的新手,正在尝试通过hdfs上传和下载文件。Java代码。这应该表现为数据上传:hadoopfs-putor-copyFromLocalfilenamedirectoryName和数据下载hadoopfs-getor-copyToLocalfilenamedirectoryName来自高清文件系统。我需要这个,因为数据集包含图像、音频、视频等文件。上面的命令适用于所有类型的数据,如果我尝试使用Javai/o阅读器代码,它适用于文本文件,但不适用于图像、视频。docx等..请在这里帮忙。在此处编辑:publicstaticvoidmain(String[]args)thr