hadoop-mapreduce

hadoop - 我是 hadoop 的新手，正在学习基础知识。我最近安装了沙箱，但我无法运行 Hadoop 命令

[root@sandbox-hdp~]#hdfsdfs-lsls:`.':Nosuchfileordirectory[root@sandbox-hdp~]#hdfsdfs-mkdirmayankmkdir:`mayank':Nosuchfileordirectory[root@sandbox-hdp~]# 最佳答案 hdfsdfs-ls通过以root身份运行它，你没有/user/root文件夹，你必须创建它。hdfsdfs-mkdirmayank您没有/user/root/文件夹，因此无法在其中创建目录。你应该改为执行hdfsdfs

沙箱 hadoop code section root hdfs

hadoop - avahi-daemon 应该在 hadoop 集群机器上运行吗？

我们有hadoop集群，hadoop版本-2.6.X&ambari版本-2.5.0.Xavahi-daemon服务应该在hadoop集群机器上作为(master/workers/kafka)被禁用还是启用？注意-我们希望禁用此服务，尤其是在数据节点机器(worker)上，因为我们认为此服务可能是操作系统重启的原因，目前此服务已启用并在我们hadoop集群中的所有机器上运行引用-https://www.systutorials.com/docs/linux/man/8-avahi-daemon/serviceavahi-daemonstatusRedirectingto/bin/syst

hadoop avahi-daemon daemon avahi redhat

java - Hadoop 身份验证与 Kerberos 错误

我正在尝试使用以下方法在HDFS中创建文件:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;为此，我添加了如下配置:Configurationconfiguration=newConfiguration();configuration.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());configur

Kerberos Hadoop code section configuration java hdfs

hadoop - 洗牌和排序阶段的输出路径

MR程序的洗牌和排序阶段的输出实际存储在哪里，是存储在本地磁盘还是存储在HDFS中？最佳答案数据存储在本地文件系统(不是HDFS)中。这通常是一个临时目录，在Hadoop作业完成后清理，配置位于core-site.xml中。关于hadoop-洗牌和排序阶段的输出路径，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/50062403/

牌和 hadoop section stackoverflow mapreduce

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB，这是一个maponly作业。但是，一些映射器输出超过512MB。例如:512.9MB。我相信，映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下，它们只会跨越多个block。关于Hado

射器 Hadoop section block hdfs mapper

apache - Hadoop 全序分区

为什么在hadoop中进行totaltotalorder分区？。哪些场景需要进行全序划分？我的理解是在多个reducer之后，每个reducer结果都会被key排序。那么为什么我们需要进行总订单划分。如果您可以分享任何图形代表，那就太好了。例子？最佳答案总顺序分区将在所有reducer中按键对输出进行排序。这允许您组合多个reducer的输出并仍然获得排序的输出。下面的简单示例:没有总订单划分reducer1'soutput:(a,val_a)(m,val_m)(x,val_x)reducer2'soutput:(b,val_b

apache Hadoop val section reducer hadoop-partitioning

java - Hadoop MapReduce - 如何创建动态分区

如何使用javamapreduce创建动态分区，就像我们有按国家/地区列分组的sql。示例我有基于国家/地区的数据集，需要根据国家/地区(分区)分隔记录。我们不能限制国家。因为每天都会获得新的国家/地区数据。最佳答案您可以利用dynamicpartitioningfeatureofHive根据传入数据自动填充分区。下面的示例演示了根据国家/地区信息对原始数据进行自动分区。创建一个原始数据文件(country1.csv)，其中包含多个国家/地区的数据1,USA2,Canada3,USA4,Brazil5,Brazil6,USA7,

MapReduce Hadoop country strong code java hadoop-partitioning

java - 如何将第三方 jar 添加到 mapreduce 作业？

寻找将第三方jar添加到mapreduce作业中的解决方案。目前，我们正在将第三方jar捆绑到mapreduce作业中。似乎有时mapreduce作业jar的大小会变高。有没有另一种方法来克服这个问题最佳答案我相信“-libjarsjar1,jar2,...”是您在这里需要的关于java-如何将第三方jar添加到mapreduce作业？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/quest

mapreduce java section jar hadoop hadoop2

windows - 为什么 Windows 上的 Hadoop 尝试连接 0.0.0.0 :10020 (unsuccessfully)?

我已经安装了Hadoop在Windowsaccordingtothisartile现在可以运行测试应用程序hadoop-mapreduce-examples-X.Y.Z.jar.不幸的是，当我开始全面应用时，它开始访问一些奇怪的地址0.0.0.0:10020.已将我的DFS配置更改为hdfs://0.0.0.0但这没有帮助。异常如下:[Thread-14]INFOorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchControlledJob-Jobstatusavailableat:http://lagrangian:8088

unsuccessfully windows java apache hadoop