apache-flume

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE？

我需要将数据从hadoop自动加载到hive，但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢？flume是否可以执行命令(查询hive就像LOAD.....)？最佳答案抱歉，我来晚了一点，但实际上我已经整理了一个非常完整的示例，说明如何执行此操作并公开了所有细节。也许，它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop - yarn 上的 Apache Hive

根据我对博客的理解，Yarn(mapred2)比hadoop的mapreduce更快或更智能。如果它是真的，有没有办法配置Hive以使用Yarn/Mapred2而没有任何复杂性来提高性能或增加资源利用率？最佳答案 Hive在Yarn的开箱即用映射上运行。但是在Yarn上运行一个旧的Hive不会是惊天动地的体验，你可能会测量相同的时间。您想要的是获得最新的Hive开发和改进(例如ORCandVectorization)，也许尝试运行HiveonTez.我建议阅读Stinger并检查这个deploymentguide.

hadoop Apache section noreferrer noopener hive hadoop-yarn

apache - Apache Sqoop 真的是 Apache Hadoop 所必需的吗？有没有其他方法可以使用数据库输入在 hadoop 中进行处理？

众所周知，hadoop使用MapReduce概念。但是将数据库拆分为数据block在逻辑上是不可能的。为此，我们使用Apachesqoop将数据库表的内容导入HDFS。我的问题是-将sqoop与Hadoop结合使用真的有那么大优势吗？如果是，谁能用一个实时示例向我解释，在这个示例中，hadoop已被实现以与数据库上的MapReduce一起工作？如果我知道MapReduce在数据库相关处理中是如何实现的，那就太好了。提前致谢。最佳答案 Sqoop在Hadoop和MySQL之间导入和导出数据方面带来了很多简化。但是如果我们看一下它支持

中进 Apache section hadoop MapReduce sqoop

java - ubuntu 14.04 上的 apache hama 安装错误

我想使用在整个过程中使用端口号54310的hama安装指南来安装和运行hama，但是当我想在hama上运行一些示例时，它给了我一个错误。即重试连接到服务器:localhost/127.0.0.1:40000这是我的hama-site.xmlbsp.master.addresslocalhostTheaddressofthebspmasterserver.Eithertheliteralstring"local"orahost[:port](wherehostisanameorIPaddress)fordistributedmode.bsp.system.dir/tmp/hama-hdu

apache ubuntu hama java hadoop

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

我是Apache-Spark的新手。我想知道如何在ApacheSpark的MapReduce函数中重置指向Iterator的指针，这样我就写了Iterator>>iter=arg0;但它不起作用。以下是在java中实现MapReduce功能的类。classCountCandidatesimplementsSerializable,PairFlatMapFunction>>,Set,Integer>,Function2{privateList>currentCandidatesSet;publicCountCandidates(finalList>currentCandidatesSet

数上何在 String lt gt java hadoop mapreduce apache-spark hadoop-yarn

Apache Ambari 过时的 PID 错误

我在DigitalOceanDroplet上运行Ambari。我已经销毁并重新安装了多个Droplets，包括全新安装的Ambari，以及扩展的PostgreSQL。尝试启动服务器时，我一直遇到以下错误。我重新启动了服务器，重新设置了服务器，删除了陈旧的PID文件，以及许多其他东西，但找不到答案。[root@jamatney0~]#ambari-serverstatusUsingpython/usr/bin/python2.6Ambari-serverstatusAmbariServernotrunning.StalePIDFileat:/var/run/ambari-server/a

过时 Apache java AmbariServer InjectorImpl postgresql hadoop bigdata

macos - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.mapreduce.InputFormat 引起

我在MACOSX10.9.4中执行sqoop导入并收到如下错误:14/10/2411:51:41INFOsqoop.Sqoop:RunningSqoopversion:1.4.514/10/2411:51:41INFOtool.BaseSqoopTool:UsingHive-specificdelimitersforoutput.Youcanoverride14/10/2411:51:41INFOtool.BaseSqoopTool:delimiterswith--fields-terminated-by,etc.14/10/2411:51:41INFOmanager.MySQLMan

ClassNotFoundException InputFormat java URLClassLoader ClassLoader macos hadoop sqoop

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)？publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

variables workers section 中工 String java hadoop mapreduce apache-spark

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop Flume code hdfs section flume-ng

hadoop - Apache Kylin 容错

ApacheKylin看起来是一个很棒的工具，可以满足大量数据科学家的需求。这也是一个非常复杂的系统。我们正在开发一个内部解决方案，其目标完全相同，即具有低查询延迟的多维OLAP多维数据集。在众多问题中，我现在最关心的是容错。交易数据量大，立方体必须增量更新，有些立方体是长时间更新的，比如时间维度值为年尺度的立方体。在这么长的时间里，复杂系统的某些部分肯定会失败，系统如何确保所有原始交易记录只聚合到长方体中一次，不多也不少？即使每一block都有自己的容错机制，并不意味着它们会自动一起演奏。为简单起见，我们可以假设所有输入数据都由另一个进程保存在HDFS中，并且可以以您希望从任何中断中

hadoop Apache section 多维 Kylin bigdata analytics olap

143 144 145146147 148 149