草庐IT

apache-flume

全部标签

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE?

我需要将数据从hadoop自动加载到hive,但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢?flume是否可以执行命令(查询hive就像LOAD.....)? 最佳答案 抱歉,我来晚了一点,但实际上我已经整理了一个非常完整的示例,说明如何执行此操作并公开了所有细节。也许,它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop - yarn 上的 Apache Hive

根据我对博客的理解,Yarn(mapred2)比hadoop的mapreduce更快或更智能。如果它是真的,有没有办法配置Hive以使用Yarn/Mapred2而没有任何复杂性来提高性能或增加资源利用率? 最佳答案 Hive在Yarn的开箱即用映射上运行。但是在Yarn上运行一个旧的Hive不会是惊天动地的体验,你可能会测量相同的时间。您想要的是获得最新的Hive开发和改进(例如ORCandVectorization),也许尝试运行HiveonTez.我建议阅读Stinger并检查这个deploymentguide.

apache - Apache Sqoop 真的是 Apache Hadoop 所必需的吗?有没有其他方法可以使用数据库输入在 hadoop 中进行处理?

众所周知,hadoop使用MapReduce概念。但是将数据库拆分为数据block在逻辑上是不可能的。为此,我们使用Apachesqoop将数据库表的内容导入HDFS。我的问题是-将sqoop与Hadoop结合使用真的有那么大优势吗?如果是,谁能用一个实时示例向我解释,在这个示例中,hadoop已被实现以与数据库上的MapReduce一起工作?如果我知道MapReduce在数据库相关处理中是如何实现的,那就太好了。提前致谢。 最佳答案 Sqoop在Hadoop和MySQL之间导入和导出数据方面带来了很多简化。但是如果我们看一下它支持

java - ubuntu 14.04 上的 apache hama 安装错误

我想使用在整个过程中使用端口号54310的hama安装指南来安装和运行hama,但是当我想在hama上运行一些示例时,它给了我一个错误。即重试连接到服务器:localhost/127.0.0.1:40000这是我的hama-site.xmlbsp.master.addresslocalhostTheaddressofthebspmasterserver.Eithertheliteralstring"local"orahost[:port](wherehostisanameorIPaddress)fordistributedmode.bsp.system.dir/tmp/hama-hdu

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

我是Apache-Spark的新手。我想知道如何在ApacheSpark的MapReduce函数中重置指向Iterator的指针,这样我就写了Iterator>>iter=arg0;但它不起作用。以下是在java中实现MapReduce功能的类。classCountCandidatesimplementsSerializable,PairFlatMapFunction>>,Set,Integer>,Function2{privateList>currentCandidatesSet;publicCountCandidates(finalList>currentCandidatesSet

Apache Ambari 过时的 PID 错误

我在DigitalOceanDroplet上运行Ambari。我已经销毁并重新安装了多个Droplets,包括全新安装的Ambari,以及扩展的PostgreSQL。尝试启动服务器时,我一直遇到以下错误。我重新启动了服务器,重新设置了服务器,删除了陈旧的PID文件,以及许多其他东西,但找不到答案。[root@jamatney0~]#ambari-serverstatusUsingpython/usr/bin/python2.6Ambari-serverstatusAmbariServernotrunning.StalePIDFileat:/var/run/ambari-server/a

macos - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.mapreduce.InputFormat 引起

我在MACOSX10.9.4中执行sqoop导入并收到如下错误:14/10/2411:51:41INFOsqoop.Sqoop:RunningSqoopversion:1.4.514/10/2411:51:41INFOtool.BaseSqoopTool:UsingHive-specificdelimitersforoutput.Youcanoverride14/10/2411:51:41INFOtool.BaseSqoopTool:delimiterswith--fields-terminated-by,etc.14/10/2411:51:41INFOmanager.MySQLMan

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)?publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop - Apache Kylin 容错

ApacheKylin看起来是一个很棒的工具,可以满足大量数据科学家的需求。这也是一个非常复杂的系统。我们正在开发一个内部解决方案,其目标完全相同,即具有低查询延迟的多维OLAP多维数据集。在众多问题中,我现在最关心的是容错。交易数据量大,立方体必须增量更新,有些立方体是长时间更新的,比如时间维度值为年尺度的立方体。在这么长的时间里,复杂系统的某些部分肯定会失败,系统如何确保所有原始交易记录只聚合到长方体中一次,不多也不少?即使每一block都有自己的容错机制,并不意味着它们会自动一起演奏。为简单起见,我们可以假设所有输入数据都由另一个进程保存在HDFS中,并且可以以您希望从任何中断中