草庐IT

READ_WRITE

全部标签

java - HBase 映射减少 : write into HBase in Reducer

我正在学习HBase。我知道如何使用HadoopMapReduce编写Java程序并将输出写入HDFS;但现在我想将相同的输出写入HBase,而不是HDFS。它应该有一些类似的代码,就像我之前在HDFS中所做的那样:context.write(key,value);谁能给我一个例子来实现这个? 最佳答案 这是一种方法:publicstaticclassMyMapperextendsTableMapper{publicvoidmap(ImmutableBytesWritablerow,Resultvalue,Contextcontex

hadoop - 为什么输入输出一般都是 "write once"或者 "immutable"文件?另外,MapReduce 程序的结构是什么?

我这周有考试,我正在学习学习指南。我正在为这两个问题的答案而苦苦挣扎。我已经给我的教授发了邮件,但他还没有回复我,所以我想我会在这里试试。有人知道这两个问题的答案吗?为什么输入和输出一般都是“一次写入”或“不可变”文件?MapReduce程序的结构是什么? 最佳答案 https://developer.yahoo.com/hadoop/tutorial/module4.html相反,MapReduce中的所有数据元素都是不可变的,这意味着它们无法更新。如果在映射任务中更改输入(键、值)对,它不会反射(reflect)在输入文件中;通

java - Hadoop - MultipleOutputs.write - OutofMemory - Java 堆空间

我正在编写一个处理许多文件并从每个文件创建多个文件的hadoop作业。我正在使用“MultipleOutputs”来编写它们。它适用于较少数量的文件,但我收到大量文件的以下错误。在MultipleOutputs.write(key,value,outputPath)上引发异常;我尝试增加ulimit和-Xmx但无济于事。2013-01-1513:44:05,154FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop

hadoop - 接口(interface)错误 : TSocket read 0 bytes when using hue with hbase

这是我在hueconfig中的设置[hbase]#以逗号分隔的HBaseThrift服务器列表#集群,格式为“(name|host:port)”。hbase_clusters=(集群|MasterIP:ThriftPort)#在截断之前获取的每行的行数或列数的硬限制。##truncate_limit=500但是当我连接到hue网页并切换到Hbase选项卡时,它显示日志:[08/Dec/201319:30:13+0000]中间件信息处理异常:Api错误:TSocket读取0字节:回溯(最近调用最后):文件“/home/ubuntu/workspaces/hue/hue-master/bu

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

java - 错误 : org. apache.hadoop.security.AccessControlException : Permission denied: user=root, access=READ_EXECUTE,

我在CentOS6机器上使用的是hadoop-1.2.1版本,并且已经配置好,它运行成功,我还在Eclipsekepler中安装了hadoop的插件,但不幸的是我得到了一个权限被拒绝的错误,我有如图所示,我试图通过阅读许多博客来解决这个问题,但我仍然被困在那里..有人可以解决这个问题吗? 最佳答案 我从您的问题中了解到,我想您正在使用操作系统的“root”登录以启动Hadoop。我建议重新启动您的系统并从“Hadoop”(在用户列表中给出,例如root、Guest、Hadoop)登录,然后启动Hadoop。然后它就会工作。

java - Spark : Read Iterate on 2 files

我需要一些有关Spark+Java编程的帮助。这是我的问题:我在hdfs中有一个大文件,名为A,另一个大文件名为B。基本上,我需要同时迭代第一个(A)和第二个(B)。我的意思是这样的(这是伪代码):a=read.A;//ReadrecordfromAb=read.B;//ReadrecordfromBwhile(a!=EOF){if(a>b){b=read.B;//WriteOutputinsomeway}else{a=read.A;//Writeoutputinsomeway}}是否可以使用Spark+Java做类似的事情? 最佳答案

hadoop - ArrayIndexOutOfBoundsException 在 MapOutputBuffer$Buffer.write 在 MapTask (Hadoop 2.7.1)

在Hadoop2.7.1上运行的Scalding驱Action业中出现ArrayIndexOutOfBounds的情况非常奇怪。下面的映射器日志转储。看起来Equator在spill2中以某种方式设置为负数。这正常吗?2015-08-1223:39:19,649INFO[main]org.apache.hadoop.mapred.MapTask:numReduceTasks:12015-08-1223:39:20,174INFO[main]org.apache.hadoop.mapred.MapTask:(EQUATOR)0kvi469762044(1879048176)2015-08