草庐IT

hadoop - avahi-daemon 应该在 hadoop 集群机器上运行吗?

我们有hadoop集群,hadoop版本-2.6.X&ambari版本-2.5.0.Xavahi-daemon服务应该在hadoop集群机器上作为(master/workers/kafka)被禁用还是启用?注意-我们希望禁用此服务,尤其是在数据节点机器(worker)上,因为我们认为此服务可能是操作系统重启的原因,目前此服务已启用并在我们hadoop集群中的所有机器上运行引用-https://www.systutorials.com/docs/linux/man/8-avahi-daemon/serviceavahi-daemonstatusRedirectingto/bin/syst

java - Hadoop 身份验证与 Kerberos 错误

我正在尝试使用以下方法在HDFS中创建文件:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;为此,我添加了如下配置:Configurationconfiguration=newConfiguration();configuration.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());configur

apache-spark - 解决 NoClassDefFoundError : org/apache/spark/Logging exception

我正在试用hbase-spark连接器。首先,我正在尝试this代码。我的pom依赖项是:org.apache.sparkspark-core_2.112.0.0org.apache.sparkspark-sql_2.112.0.0org.apache.hbasehbase-spark2.0.0-alpha4运行代码时出现以下异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)a

hadoop - 洗牌和排序阶段的输出路径

MR程序的洗牌和排序阶段的输出实际存储在哪里,是存储在本地磁盘还是存储在HDFS中? 最佳答案 数据存储在本地文件系统(不是HDFS)中。这通常是一个临时目录,在Hadoop作业完成后清理,配置位于core-site.xml中。 关于hadoop-洗牌和排序阶段的输出路径,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/50062403/

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS?

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB,这是一个maponly作业。但是,一些映射器输出超过512MB。例如:512.9MB。我相信,映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢 最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下,它们只会跨越多个block。 关于Hado

apache - Hadoop 全序分区

为什么在hadoop中进行totaltotalorder分区?。哪些场景需要进行全序划分?我的理解是在多个reducer之后,每个reducer结果都会被key排序。那么为什么我们需要进行总订单划分。如果您可以分享任何图形代表,那就太好了。例子? 最佳答案 总顺序分区将在所有reducer中按键对输出进行排序。这允许您组合多个reducer的输出并仍然获得排序的输出。下面的简单示例:没有总订单划分reducer1'soutput:(a,val_a)(m,val_m)(x,val_x)reducer2'soutput:(b,val_b

java - Hadoop MapReduce - 如何创建动态分区

如何使用javamapreduce创建动态分区,就像我们有按国家/地区列分组的sql。示例我有基于国家/地区的数据集,需要根据国家/地区(分区)分隔记录。我们不能限制国家。因为每天都会获得新的国家/地区数据。 最佳答案 您可以利用dynamicpartitioningfeatureofHive根据传入数据自动填充分区。下面的示例演示了根据国家/地区信息对原始数据进行自动分区。创建一个原始数据文件(country1.csv),其中包含多个国家/地区的数据1,USA2,Canada3,USA4,Brazil5,Brazil6,USA7,

java - 如何将第三方 jar 添加到 mapreduce 作业?

寻找将第三方jar添加到mapreduce作业中的解决方案。目前,我们正在将第三方jar捆绑到mapreduce作业中。似乎有时mapreduce作业jar的大小会变高。有没有另一种方法来克服这个问题 最佳答案 我相信“-libjarsjar1,jar2,...”是您在这里需要的 关于java-如何将第三方jar添加到mapreduce作业?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/quest

apache-spark - Spark - 获取部分文件后缀

当Spark使用Hadoopwriter写入部分文件时(使用saveAsTextFile()),这是它保存文件的通用格式“part-NNNNN”。如何在运行时在Spark中检索这个后缀“NNNNN”?附言。我不想列出文件然后检索后缀。 最佳答案 文件名为part-00000、part-00001等。每个RDD分区都写入一个part-文件。因此,输出文件的数量将取决于正在写入的RDD中的分区。您可以检查正在写入的RDD的分区数(比如5),然后访问文件part-00000到part-00004。插图通过查询Hive表构建DataFram