草庐IT

apache-flume

全部标签

hadoop - 启动器错误,原因 : Main class [org. apache.oozie.action.hadoop.HiveMain],退出代码 [12]

在oozie中运行配置单元操作时出现以下错误:015-12-2019:48:40,368WARNHiveActionExecutor:523-SERVER[sandbox.hortonworks.com]USER[root]GROUP[-]TOKEN[]APP[oozie_hive_root]JOB[0000013-151220142557945-oozie-oozi-W]ACTION[0000013-151220142557945-oozie-oozi-W@oozie_hive_root]LauncherERROR,reason:Mainclass[org.apache.oozie.

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录?说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等 最佳答案 我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取,我们在StackOver

java - 信息 : Transport Used for JDBC connection: null + Apache Hive

我正在尝试通过JDBC连接ApacheHive和eclipse,但出现以下错误。以下是版本信息:ApacheHadoop:2.7.1,Hive:1.2.1和EclipseKepler。****Error:****Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Suppliedauthorities:localhost:10000Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Resolvedauthority:localhost:10000Dec29,

Apache Flink连载(十四):Flink 本地模式开启WebUI

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客 🚩私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录

hadoop - Flume 假脱机目录源 : Cannot load files larger files

我正在尝试使用flume假脱机目录将数据摄取到HDFS(SpoolDir>MemoryChannel>HDFS)。我正在使用ClouderaHadoop5.4.2。(Hadoop2.6.0,Flume1.5.0)。它适用于较小的文件,但不适用于较大的文件。请在下面找到我的测试场景:大小为KB到50-60MBytes的文件,处理无问题。大于50-60MB的文件,它将大约50MB写入HDFS,然后我发现flumeagent意外退出。水槽日志中没有错误消息。我发现它试图多次创建“.tmp”文件(HDFS),并且每次在意外退出之前写入几兆字节(有时2MB,有时45MB)。一段时间后,最后尝试的

hadoop - 检查点在 Apache Spark 上有什么作用?

检查点对ApacheSpark有什么作用,它对RAM或CPU有何影响? 最佳答案 来自ApacheStreamingDocumentation-希望对您有所帮助:流式应用程序必须24/7全天候运行,因此必须能够应对与应用程序逻辑无关的故障(例如,系统故障、JVM崩溃等)。为了使这成为可能,SparkStreaming需要将足够的信息检查点到容错存储系统,以便它可以从故障中恢复。有两种类型的数据被检查点。元数据检查点-定义信息的保存将计算流式传输到HDFS等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。

maven - Apache Spark 依赖问题

我正在尝试在Hadoop集群中运行我的spark应用程序。集群中运行的spark版本为1.3.1。在集群中打包和运行我的spark应用程序时,出现如下错误。我也查看了其他帖子,好像我搞砸了库依赖项,但无法弄清楚是什么!以下是可能对你们帮助我有帮助的其他信息:hadoop-版本:Hadoop2.7.1.2.3.0.0-2557Subversiongit@github.com:hortonworks/hadoop.git-r9f17d40a0f2046d217b2bff90ad6e2fc7e41f5e1Compiledbyjenkinson2015-07-14T13:08ZCompiled

hadoop:错误 org.apache.pig.tools.grunt.Grunt - 错误 1000:解析期间出错。遭遇

我在我的gruntshell中使用它:customers=LOAD'hdfs://localhost:9000/pig_data_customers'USINGPigStorage(',')as(id:int,name:chararray,age:int,address:chararray,salary:double);数据在这里:[root@localhostbin]#hdfsdfs-cathdfs://localhost:9000/pig_data_customers1,Ramesh,32,Ahmedabad,2000.002,Khilan,25,Delhi,1500.003,ka

Hadoop:无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在安装Hadoop后,我试图启动一个相当简单的WordCount(我非常关注thistutorial),但我得到了这个:2018-04-0516:51:00,192INFOmapreduce.Job:Jobjob_1522936330711_0007failedwithstateFAILEDdueto:Applicationapplication_1522936330711_0007failed2timesduetoAMContainerforappattempt_1522936330711_0007_000002exitedwithexitCode:1Failingthisattem

hadoop - oozie 中的 org.apache.hadoop.mapred.lib.MultipleOutputs.addNamedOutput()

我正在尝试使用MultipleOutputs来更改reducer中的输出文件名。我正在使用oozie工作流来运行mapreduce作业。我找不到在oozie工作流中添加以下属性的方法-MultipleOutputs.addNamedOutput(job,"text",TextOutputFormat.class,Text.class,Text.class);因为它是ooziemapreduce操作,所以我没有驱动程序类放在上面的代码。 最佳答案 答案就在方法的源代码中。来自hadoopcore1.2.1jar/**/publicst