Hadoop_草庐IT

hadoop - avahi-daemon 应该在 hadoop 集群机器上运行吗？

我们有hadoop集群，hadoop版本-2.6.X&ambari版本-2.5.0.Xavahi-daemon服务应该在hadoop集群机器上作为(master/workers/kafka)被禁用还是启用？注意-我们希望禁用此服务，尤其是在数据节点机器(worker)上，因为我们认为此服务可能是操作系统重启的原因，目前此服务已启用并在我们hadoop集群中的所有机器上运行引用-https://www.systutorials.com/docs/linux/man/8-avahi-daemon/serviceavahi-daemonstatusRedirectingto/bin/syst

java - Hadoop 身份验证与 Kerberos 错误

我正在尝试使用以下方法在HDFS中创建文件:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;为此，我添加了如下配置:Configurationconfiguration=newConfiguration();configuration.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());configur

Kerberos Hadoop code section configuration java hdfs

apache-spark - 解决 NoClassDefFoundError : org/apache/spark/Logging exception

我正在试用hbase-spark连接器。首先，我正在尝试this代码。我的pom依赖项是:org.apache.sparkspark-core_2.112.0.0org.apache.sparkspark-sql_2.112.0.0org.apache.hbasehbase-spark2.0.0-alpha4运行代码时出现以下异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)a

apache spark java gt apache-spark hadoop hbase maven-dependency

hadoop - 洗牌和排序阶段的输出路径

MR程序的洗牌和排序阶段的输出实际存储在哪里，是存储在本地磁盘还是存储在HDFS中？最佳答案数据存储在本地文件系统(不是HDFS)中。这通常是一个临时目录，在Hadoop作业完成后清理，配置位于core-site.xml中。关于hadoop-洗牌和排序阶段的输出路径，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/50062403/

牌和 hadoop section stackoverflow mapreduce

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB，这是一个maponly作业。但是，一些映射器输出超过512MB。例如:512.9MB。我相信，映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下，它们只会跨越多个block。关于Hado

射器 Hadoop section block hdfs mapper

apache - Hadoop 全序分区

为什么在hadoop中进行totaltotalorder分区？。哪些场景需要进行全序划分？我的理解是在多个reducer之后，每个reducer结果都会被key排序。那么为什么我们需要进行总订单划分。如果您可以分享任何图形代表，那就太好了。例子？最佳答案总顺序分区将在所有reducer中按键对输出进行排序。这允许您组合多个reducer的输出并仍然获得排序的输出。下面的简单示例:没有总订单划分reducer1'soutput:(a,val_a)(m,val_m)(x,val_x)reducer2'soutput:(b,val_b

apache Hadoop val section reducer hadoop-partitioning

java - Hadoop MapReduce - 如何创建动态分区

如何使用javamapreduce创建动态分区，就像我们有按国家/地区列分组的sql。示例我有基于国家/地区的数据集，需要根据国家/地区(分区)分隔记录。我们不能限制国家。因为每天都会获得新的国家/地区数据。最佳答案您可以利用dynamicpartitioningfeatureofHive根据传入数据自动填充分区。下面的示例演示了根据国家/地区信息对原始数据进行自动分区。创建一个原始数据文件(country1.csv)，其中包含多个国家/地区的数据1,USA2,Canada3,USA4,Brazil5,Brazil6,USA7,

MapReduce Hadoop country strong code java hadoop-partitioning

java - 如何将第三方 jar 添加到 mapreduce 作业？

寻找将第三方jar添加到mapreduce作业中的解决方案。目前，我们正在将第三方jar捆绑到mapreduce作业中。似乎有时mapreduce作业jar的大小会变高。有没有另一种方法来克服这个问题最佳答案我相信“-libjarsjar1,jar2,...”是您在这里需要的关于java-如何将第三方jar添加到mapreduce作业？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/quest

mapreduce java section jar hadoop hadoop2

apache-spark - Spark - 获取部分文件后缀

当Spark使用Hadoopwriter写入部分文件时(使用saveAsTextFile())，这是它保存文件的通用格式“part-NNNNN”。如何在运行时在Spark中检索这个后缀“NNNNN”？附言。我不想列出文件然后检索后缀。最佳答案文件名为part-00000、part-00001等。每个RDD分区都写入一个part-文件。因此，输出文件的数量将取决于正在写入的RDD中的分区。您可以检查正在写入的RDD的分区数(比如5)，然后访问文件part-00000到part-00004。插图通过查询Hive表构建DataFram

apache-spark apache process_output code process hadoop mapreduce hdfs