hadoop-mapreduce

hadoop - 考虑到 HDFS 中的复制，找出目录大小

有什么方法可以找出目录占用的原始HDFS空间。据我所知hdfsdfs-du-s/dir显示/dir大小，不考虑内部文件的复制。最佳答案运行命令hadoopfsck/dir并查找参数Averageblockreplication。将此数字乘以您从hdfsdfs-du-s/dir获得的结果。关于hadoop-考虑到HDFS中的复制，找出目录大小，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

找出 hadoop section code stackoverflow hdfs replication

hadoop - 将 50 个大文件中的列/字段合并到一个文件中

我想知道组合所有字段/列的有效方法多个文件合并为一个文件。对于每一个文件1:1,fname1,one2,fname2,two文件2:1,lname1,lone2,lname2,ltwo预期输出1,fname1,one,lname1,lone2,fname2,two,lname2,ltwo我有大约70个这样的文件，每个文件有超过1亿条记录和6列。目前我正在尝试使用hive连接来做到这一点。它似乎永远在运行——将近24小时并且仍在运行。我需要更好的解决方案。最佳答案以“朴素”的方式连接70个文件意味着Hive必须按顺序执行69个连接

大文 hadoop section code pre hive apache-pig

hadoop - Oozie 4.0.0 构建错误 - 无法解析 hcatalog 依赖项

Hadoop版本-1.2.1Maven版本-3.0.5配置单元版本-0.14.0pig版本-0.14.0当我开始使用以下命令构建oozie时./mkdistro.sh-DskipTests我得到以下错误[INFO]ApacheOozieShareLibSqoop......................SKIPPED[INFO]ApacheOozieShareLibStreaming..................SKIPPED[INFO]ApacheOozieShareLibDistcp.....................SKIPPED[INFO]ApacheOozieW

hcatalog hadoop INFO hive oozie

hadoop - 使用自动化脚本配置 AWS 集群

我们正在寻找一个自动化脚本的可能性，我们可以给出我们需要多少主节点和数据节点，它会配置一个集群。可能在属性文件中提供凭据。目前我们的做法是登录控制台配置Hadoop集群。如果能有一种自动化的方法来解决它，那就太好了。最佳答案我已经看到使用Foreman做得非常好,Chef,和AmbariBlueprints.Foreman用于配置VM，Chef脚本用于安装Ambari、配置Ambari蓝图，并使用蓝图创建集群。关于hadoop-使用自动化脚本配置AWS集群，我们在StackOver

hadoop AWS section noreferrer noopener amazon-web-services automation hortonworks-data-platform

hadoop - Hive - 移动 HDFS 上的现有仓库位置

我有一个我们已经使用了一段时间的HDP集群和Hive中充满数据的现有数据库和表我们决定将hive的数据仓库在HDFS上的位置从/apps/hive/warehouse更改为自定义目录我在hive-site.xml中更改了hive.metastore.warehouse.dir并且在我们创建新的dbs/tables时考虑了更改然而，现有内容仍在/apps/hive/warehouse中。有没有办法在不破坏Hive或重新导入所有内容的情况下移动它？最佳答案过去做过这样的事情。您需要进行hack操作并直接更新HIVE元存储中的值:使用

hadoop Hive section code hdfs data-warehouse hortonworks-data-platform

java - 在 Hadoop 排序中映射中的键类型不匹配

我正在创建一个简单的hadoop排序示例，我有以下代码。我正在使用现成的InverseMaper和IdentityreducerFileInputFormat.setInputPaths(conf,newPath(args[0]));FileOutputFormat.setOutputPath(conf,newPath(args[1]));conf.setInputFormat(TextInputFormat.class);conf.setOutputKeyClass(LongWritable.class);conf.setOutputValueClass(LongWritable.c

射中 Hadoop java apache

hadoop - kafka在大数据集群中有什么用？

我最近部署了大数据集群。在这方面，我使用了ApacheKafka和zookeeper。但是我仍然不了解它在集群中的用法。什么时候需要两者以及出于什么目的？最佳答案我在这里简化概念。您可以在此处找到详细说明articleKafka是一种快速、可扩展、本质上分布式的设计、分区和复制的提交日志服务。它具有独特的设计。特定类型的消息流被定义为主题。生产者可以是任何可以向主题发布消息的人。然后，发布的消息存储在一组称为代理或Kafka集群的服务器中。消费者可以订阅一个或多个主题，并通过从代理中提取数据来消费发布的消息。ZooKeeper是

大数 hadoop strong section ZooKeeper amazon-web-services bigdata apache-kafka apache-zookeeper

hadoop - 模式表的 MSCK 修复表失败

我的hive表名采用以下格式:schema_name.hive_table_name例如:schema1.abc;现在，当我尝试在上面的配置单元表上执行MSCK修复表时，它会抛出以下错误。使用文件中的配置初始化日志记录:/etc/hive/conf.dist/hive-log4j.properties失败:ParseException行1:28在“.”处缺少EOF在“schema_name”附近下面是我使用的命令:hive-e"MSCK修复表schema_name.hive_table_name"有人可以帮忙吗？最佳答案我试过下

hadoop MSCK section hive strong

sorting - 在具有 "X"个映射器和 "Y"个缩减器的大型 MapReduce 作业中，排序/洗牌阶段将有多少个不同的复制操作

据我了解会有X+Y个复制操作，不对请指正谢谢最佳答案在最坏的情况下，每个reducer可能会从所有映射器中获取记录，假设它的键在所有可用的映射器中都存在。在最坏的情况下，这将为一个reducer提供X个副本。这将导致XY操作而不是X+Y。关于sorting-在具有"X"个映射器和"Y"个缩减器的大型MapReduce作业中，排序/洗牌阶段将有多少个不同的复制操作，我们在StackOverflow上找到一个类似的问题： https://stackoverf

射器 amp section stackoverflow sorting hadoop mapreduce hdfs

java - MapReduce:减少写入上下文时无限期停止

下面是一个mapreduce程序，在map函数中进行过滤，在reduce步骤中进行求和。map部分执行良好。但是当reduce部分运行时，它会卡在context.write(key,value)行。只有当我尝试在reduce函数类型中编写与在map函数中编写的不同的输出时，才会发生这种情况publicclassFilter3{publicstaticclassTokenizerMapperextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedExceptio

无限期 MapReduce Contestant public rating java hadoop

37 38 394041 42 43