草庐IT

Property

全部标签

hadoop - 无法从 Apache Nifi 连接到 Docker 中的 Hadoop

我正在尝试运行以下ApacheNifi流程并将数据从Kafka放入HDFS:我在跑ConfluentKafka我的Hadoop实例是Cloudera快速入门。Cloudera快速入门dockerrun--hostname=quickstart.cloudera--privileged=true-t-i-p8888:8888-p7180:7180-p80:80-p50070:50070-p8020:8020-p50010:50010-p50020:50020-p50075:50075-p50475:50475-p50090:50090-p50495:50495-v$(pwd):/home

hadoop - yarn : Automatic clearing of filecache & usercache

我们正在运行一个使用yarn作为资源管理器的sparkstreaming作业,注意到这两个目录在数据节点上被填满,当我们只运行几分钟时空间就用完了/tmp/hadoop/data/nm-local-dir/filecache/tmp/hadoop/data/nm-local-dir/filecache这些目录不会自动清除,根据我的研究发现需要设置此属性,yarn.nodemanager.localizer.cache.cleanup.interval-ms即使在设置之后..它也不会自动清除任何帮助将不胜感激~~~yarn.nodemanager.aux-services~mapredu

Java IllegalArgumentException: Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are required问题解决

问题描述:java.lang.IllegalArgumentException: Property 'sqlSessionFactory' or 'sqlSessionTemplate' are required问题分析:1、一个项目有多个启动模块,一个核心模块,启动模块引用核心模块的代码,只有一个启动模块支持多数据源,其余启动模块还是单数据源,所以不支持多数据源的启动模块引用核心模块时加了如下配置排除多数据源依赖。后面又有一个启动模块要支持多数据源,没有将排除多数据源依赖配置去掉,导致报错。com.baomidoudynamic-datasource-spring-boot-starter解

hadoop - 执行 hdfs namenode -format 时出错

我是hadoop、hdfs的新手..我已经完成了接下来的步骤:我已经在三个名称节点中启动了zookeeper:*vagrant@172:~$zkServer.shstart我可以看到状态:*vagrant@172:~$zkServer.shstatus结果状态:JMXenabledbydefaultUsingconfig:/opt/zookeeper-3.4.6/bin/../conf/zoo.cfgMode:follower用jps命令只出现jps有时也会出现quaroom:*vagrant@172:~$jps2237Jps我也运行下一个命令。*vagrant@172:~$hdfsz

hadoop - Hbase连接关于zookeeper报错

环境:Ubuntu14.04、hadoop-2.2.0、hbase-0.98.7当我启动hadoop和hbase(单节点模式)时,都成功(我还检查了网站8088的hadoop,60010的hbase)jps4507SecondaryNameNode5350HRegionServer4197NameNode4795NodeManager3948QuorumPeerMain5209HMaster4678ResourceManager5831Jps4310DataNode但是查看hbase-hadoop-master-localhost.log时,发现如下信息2014-10-2314:16:

hadoop - 连接错误 : <class 'thrift.transport.TTransport.TTransportException' > Could not connect to localhost:21000

我正在尝试在没有cloudera管理器的情况下在我的本地计算机(32位ubuntu)上安装clouderaimpala(它们不支持32位ubuntu,我也尝试过但失败了)。我已尝试按照以下命令从存储库下载impala。$sudoapt-getinstallimpala-shell$sudoapt-getinstallimpala#Binariesfordaemons$sudoapt-getinstallimpala-server#Servicestart/stopscript$sudoapt-getinstallimpala-state-store#Servicestart/stops

java - 如何使用 hadoop 2.x 并行运行 MapReduce 任务?

我希望我的map和reduce任务并行运行。然而,尽管尝试了所有的技巧,它们仍然按顺序运行。我读自HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce,使用以下公式,可以设置并行运行的任务数。min(yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemanager.resource.cpu-vcores/mapreduce.[map|reduce].cp

java - 将 1GB 数据加载到 hbase 需要 1 小时

我想将1GB(1000万条记录)的CSV文件加载到Hbase中。我为此编写了Map-Reduce程序。我的代码运行良好,但需要1小时才能完成。LastReducer花费了半个多小时的时间。谁能帮帮我?我的代码如下:驱动.Javapackagecom.cloudera.examples.hbase.bulkimport;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap

hadoop - 无法创建目录/home/hadoop/hadoopinfra/hdfs/namenode/current

我得到了错误Cannotcreatedirectory/home/hadoop/hadoopinfra/hdfs/namenode/current尝试在本地Mac上安装hadoop时。这可能是什么原因?仅供引用,我将我的xml文件放在下面:mapred-site.xml:mapreduce.framework.nameyarnhdfs-site.xml:dfs.replication1dfs.name.dirfile:///home/hadoop/hadoopinfra/hdfs/namenodedfs.data.dirfile:///home/hadoop/hadoopinfra/h

java - 使用 oozie 为 mapreduce 作业写入多个输出流的正确方法是什么?

我正在使用新的HadoopAPI编写一系列map-reduce作业。我打算使用Oozie将所有这些管道连接在一起,但我似乎无法找到一种方法来从工作流中的map-reduce节点执行多个输出流。通常要编写多个输出,我会使用类似于MultipleOutputsjavadoc中给出的代码的代码,但oozie从workflow.xml文件中获取所有配置,因此无法像示例中那样配置命名输出。我遇到了一个thread讨论了Oozie中多个输出的使用,但除了创建Java任务并将其直接添加到Oozie管道之外,没有提出任何解决方案。有没有办法通过workflow.xml中的map-reduce节点来实现