草庐IT

sync_close

全部标签

hadoop - 为什么在 Hadoop 中扩展 RecordReader 时同步 close() 方法

我会看一下给定alexhomes的hadoop-book的例子here我不明白为什么关闭方法是同步的?为什么只有close()而没有其他方法?publicsynchronizedvoidclose()throwsIOException{reader.close();}有人能解释一下吗?这将非常有帮助。 最佳答案 正如我在书中提到的,我使用了ElephantBird项目的LzoJsonRecordReader类作为我的版本的基础,因为我想写一个不需要LZOP压缩的版本。ElephantBird在他们的RecordReader中使用了同

hadoop - 使用 Hive Session Close 清理资源

我需要在我的自定义UDF中创建一些资源(带有二进制数据的地理编码器)的对象。这些资源应该为UDF创建一次,并且每个映射器将保存此资源的单个实例所以我使用一个创建此资源并保存其静态引用的单例工厂。为了处理这些资源,我使用了一个关闭Hook,它在HiveCLI控制台(Putty)上运行良好,如果我退出控制台,它会处理所有资源。但我无法使用HueUI处理这些资源,即使我关闭了配置单元session,这些资源仍然存在。谁能帮我找到一种更简洁的方法来使用HueUI处理这些资源。作为解决方法,我创建了一个新的UDF来处理这些资源-SELECTDisposeGeocoders();。但这对用户来说是

hadoop - 在 close() 方法中报告作业状态/进度

我在hadoop中遇到了超时问题,我的工作被终止了。close()方法中有繁重的清理工作,因此在进行这些清理时我需要更新close方法中的进度。对于这种情况,增加超时不是一个好的选择,因为它无法随着清理工作量的增加而扩展。我正在查看的遗留作业使用的是旧API,它在reduce()方法中有一个报告对象,可用于更新进度。但是,在close()方法中没有这样的Reporter。那么有什么解决方法吗? 最佳答案 尝试使用Mapper.Context.Hadoop提供了Prograssable接口(interface),其中包含这个有趣的方法

exception - 使用线程池时出现 Hadoop 'Filesystem closed' 异常

我是hadoop的新手,我在5节点集群上运行多个mapReduce作业。当运行多个线程时,我开始出现“文件系统关闭”异常。一次运行一个作业时工作正常。错误在映射之后出现,就在减少之前。它看起来像这样:java.lang.Exception:java.io.IOException:Filesystemclosedatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:399)Causedby:java.io.IOException:Filesystemclosedatorg.apache.hadoop.h

hadoop - 租期过期异常 : No lease error on HDFS (Failed to close file)

我正在尝试将大数据加载到HIVE中的动态分区表中。我一直收到这个错误。如果我在没有分区的情况下加载数据,它工作正常。如果我使用较小的数据集(带分区),它也能正常工作。但是对于大型数据集,我开始收到此错误错误:2014-11-1009:28:01,112ERRORorg.apache.hadoop.hdfs.DFSClient:Failedtoclosefile/tmp/hive-username/hive_2014-11-10_09-25-26_785_2042278847834453465/_task_tmp.-ext-10002/pseudo_element_id=NN%09/_t

AWS EMR 中的 Hadoop : Will closing terminal kill hadoop job?

在不终止我的Hadoop作业的情况下关闭我的终端或关闭我的计算机是否安全?我正在通过AmazonElasticMapReduce上的集群运行Hadoop作业。我打开了我的终端,在那里我通过ssh进入了我的主节点。当我尝试关闭终端时,我收到一条警告,提示所有进程都将被终止。这也会扼杀我的Hadoop工作吗?或者我可以关闭我的计算机并稍后再次使用ssh吗?我是否需要特殊工具(如tmux)来执行此操作?如果重要的话,我在Ubuntu13.10中使用默认的(bin/bash)终端。我从Pig脚本开始这项工作。 最佳答案 不,你可以愉快地杀死

值得信赖的数据同步备份软件 -Allway Sync 安全又可靠,简单又易用!

AllwaySync是一款可靠的数据同步备份工具,最初的版本发布于2004年4月19号,距离今日大约有19年的更新历史了,足以说明软件绝对稳定,时间验证了软件的可靠性!而对于我们用户来说,数据同步备份最重要的一点,就是安全和可靠!而设置备份也非常简单,只需要三步!1、选择两边需要同步或者备份的文件夹。2、选择备份方式(双方同步、单项备份)3、点击分析数据、然后点击同步即可完成。您可以选择同步或者备份的文件夹类型具体如下:Windows文件夹文件夹位于本始磁盘、USB盘、CD、DVD、软盘、闪存盘或其他具有Windows盘符的设备FTP服务器经过互联网连接,位于FTP服务器上的文件夹Amazon

hadoop - SequenceFile.Writer的sync和syncFs是什么意思?

环境:Hadoop0.20.2-cdh3u5我正在尝试使用使用SequenceFile.Writer的自定义工具将日志数据(10G)上传到HDFS。SequenceFile.Writerw=SequenceFile.createWriter(hdfs,conf,p,LongWritable.class,Text.class,4096,hdfs.getDefaultReplication(),hdfs.getDefaultBlockSize(),compressionType,codec,null,newMetadata());在上传过程中,如果工具崩溃(没有显式调用close()方法)

java - Apache Spark-Kafka.TaskCompletionListenerException & KafkaRDD$KafkaRDDIterator.close 本地集群上的 NPE(客户端模式)

我的spark-streaming代码可以在EclipseIDE上无缝运行。但是当我在本地spark集群上运行它时,它给出了org.apache.spark.util.TaskCompletionListenerException。此外,在spark-submit上,“客户端模式”代码运行良好,直到我启动我的kafka生产者,但当我启动生产者时,它会出现以下错误。我使用命令shSPARK_HOME/sbin/start-all.sh启动本地集群并使用此脚本调用spark-submit。#!/bin/shSP_SUBMIT=/home/user/spark/bin/spark-submi

hadoop - IO异常 : Filesystem closed exception when running oozie workflow

我们在oozie中运行一个工作流。它包含两个操作:第一个是在hdfs中生成文件的mapreduce作业,第二个是将文件中的数据复制到数据库的作业。两个部分都成功完成,但oozie在最后抛出一个异常,将其标记为失败的过程。这是异常(exception)情况:2014-05-2017:29:32,242ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:lpinsight(auth:SIMPLE)cause:java.io.IOException:Filesystemclosed