草庐IT

fetch阶段

全部标签

Java面试常见问题整理(项目阶段 附答案)

1、日志文件的管理,你们是怎么做的?场景:记录每个人在项目中的动作。在Java开发中日志的管理有很多种。我一般会使用过滤器,或者是spring的拦截器进行日志的处理。如果是用过滤器比较简单,只要对所有的.do提交进行拦截,然后获取action的提交路径就可以获取对每个方法的调用。然后进行日志记录。使用过滤器的好处是可以自己选择性的对某一些方法进行过滤,记录日志。但是实现起来有点麻烦。另外一种就是使用Spring的AOP了。这种方式实现起来非常简单,不用修改原来的代码,只要配置一下配置文件就可以了。可是这种方式会拦截下所有的对action的每个操作。使得效率比较低。不过想做详细日志这个方法还是非

ios - 核心数据 : Fetch count of to-many relationship with NSDictionaryResultType

我在CoreData中有一个很大的对象列表(大约50000个并且会定期增加)。我通过以下请求获取它:NSFetchRequest*fetchRequest=[[NSFetchRequestalloc]initWithEntityName:[SongObjectname]];fetchRequest.sortDescriptors=@[[NSSortDescriptorsortDescriptorWithKey:@"name"ascending:YES]];fetchRequest.propertiesToFetch=@[@"uid",@"name",@"toArtistRef.uid"

ios - Core Data Fetch 请求在大型数据集上变慢

这是我的第一个CoreData项目,我需要有关加快获取请求的建议。我的核心数据模型包含2个实体,Wells和Fluids。Wells有50,000条记录,Fluids有200万条记录。它们如下所示。WellsnamsrelationwellsToFluidsFluidstext1,text2,etc.relationfluidsToWellsWells上的获取请求非常快。Wells上的提取请求与通过wellsToFluids关系的复合谓词访问的Fluids中的数据结合起来很慢。而且,我在不同的谓词上看到了意外的提取时间。我正在构建一个基于用户选择的复合谓词。但基本上情况是这样的Well

search - 什么是搜索中的 map 和 reduce 阶段

我想用hadoop实现一个简单的搜索引擎。所以我使用hadoopstreamingapi和bash创建了一个倒排索引。输出的文件如下:ab(7441)1abbrevi(1221)1abil(511)(771)(7381)3abl(991)(1321)(5361)(5811)(6951)(7631)(9081)(9141)(9861)(11142)10ablat(822)(2742)(5537)(5871)(10653)(10962)(10977)(10983)(10Sorryif994)(11004)(11013)(12263)(12413)(12791)14about(271)(32

hadoop - 跨节点的数据移动是否发生在 Reducer 阶段? MapReduce

这是一道概念题。当映射器函数完成时,它会在本地节点上发出中间键值对。如果假设Jobtracker选择reducer从不同的节点运行,数据移动是否发生在节点之间?如果是这样,请告诉我只有在所有Mapper阶段完成后,reduce阶段才会开始。或者是否会有任何后台进程在单个映射器完成后立即运行,这会将数据移动/复制到Reducer节点?如果这个问题很愚蠢,请忽略:( 最佳答案 IfsupposeTheJobtrackerchoosesreducertorunfromdifferentnode,dotheDatamovementhappe

python - 如何进行 3 阶段 Map Reduce 流式处理?

我是hadoop的新手。目前我有一个映射器、一个缩减器和一个组合器。我可以做catfile|映射器.py|reducer.py|combiner.py来产生结果。并且减少阶段是令人尴尬的并行化。那么,鉴于我有一个hadoop集群,谁能告诉我如何将它放入hadoop流中? 最佳答案 hadoop流支持标准输入/标准输出。所以你可以重用你的mapper.py、reducer.py和combiner.py考虑签名:$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/hadoop-streaming.jar\-in

java - Map阶段和Reduce阶段进度如何计算

我想知道在HadoopMapReduce中运行作业时,map-stage和reducestage-progress是如何计算的。我进入JobClient.java寻找线索,我认为JobStatus.java存储了所有这些信息,但我找不到百分比是如何计算/更新的。 最佳答案 来自org.apache.hadoop.mapred.JobInProgress#updateTaskStatus:doubleprogressDelta=tip.getProgress()-oldProgress;if(tip.isMapTask()){this

java - 减少阶段的 Mapreduce java 堆空间错误

我有一个简单的mapreduce作业来构建tfidf索引,但是当reducer大约为java堆空间错误时,我总是会遇到错误。70%。我尝试了不同的方法,使用各种结构,告诉我的工作在命令中使用更多内存并在较小的样本上运行我的工作,但没有任何改变甚至很小。我的想法已经结束,所以我将不胜感激任何关于正在发生的事情的提示。Mapper产生正确的输出,但reducer总是由于java堆空间错误而失败。这是我正在运行的命令(我试图指定使用的内存量):hadoopjarWordCountMPv1.jar-Dmapreduce.map.memory.mb=2048-Dmapreduce.reduce.

hadoop - Nutch fetch 命令不获取数据

我有一个包含以下软件堆栈的集群设置:nutch-branch-2.3.1,gora-hbase0.6.1Hadoop2.5.2,hbase-0.98.8-hadoop2所以初始命令是:注入(inject)、生成、获取、解析、更新b其中前2个,即注入(inject)、生成工作正常,但对于nutch命令(即使它执行成功)它没有获取任何数据,并且因为获取过程失败,它的后续过程也失败了。请找到每个进程的计数器日志:注入(inject)作业:2016-01-0814:12:45,649INFO[main]mapreduce.Job:Counters:31FileSystemCountersFIL

java - 阶段 13.0 (TID 13) 中的任务 0.0 异常 java.lang.OutOfMemoryError : Java heap space

当我们使用“mahoutspark-rowsimilarity”操作时,我们正在试验问题。我们有一个包含100k行和100个项目的输入矩阵,进程抛出一个关于“Exceptionintask0.0instage13.0(TID13)java.lang.OutOfMemoryError:Javaheapspace”,我们尝试增加JAVAHEAPMEMORY、MAHOUTHEAPMEMORY和spark.driver.memory。环境版本:驯象师:0.11.1星火:1.6.0。Mahout命令行:/opt/mahout/bin/mahoutspark-rowsimilarity-i50k_