草庐IT

performance-reference

全部标签

performance - 在 Hadoop 中提高 MapReduce 作业性能的技巧

我有100个映射器和1个reducer在工作中运行。如何提高工作绩效?据我了解:combiner的使用可以在很大程度上提高性能。但是我们还需要配置什么来提高作业性能? 最佳答案 由于此问题中的数据有限(输入文件大小、HDFSblock大小、平均map处理时间、集群中的Mapper槽数和Reduce槽数等),我们无法提供提示。但是有一些通用准则可以提高性能。如果每项任务花费的时间少于30-40秒,则reducetask数量如果作业的输入超过1TB,请考虑将输入数据集的block大小增加到256M甚至512M,这样任务的数量就会变少.只

performance - 有没有办法识别或检测 Hive 表中的数据倾斜?

我们有许多需要花费大量时间的配置单元查询。我们正在使用tez和其他良好实践,例如CBO,使用orc文件等。有没有办法像某些命令一样检查/分析数据偏差?解释计划会有帮助吗?如果有帮助,我应该寻找哪个参数? 最佳答案 解释计划对此无济于事,您应该检查数据。如果是join,从join涉及的所有表中选top100joinkeyvalue,如果是解析函数,partitionbykey也一样,看是否偏斜。例子:selectkey,count(*)cntfromtablegroupbykeyhavingcount(*)>1000--checkal

performance - HBase 客户端写入性能差

我在我的应用程序服务器(-cumweb服务器)中使用HBase客户端和HBase使用CDH3u4(HBase-0.90)的6个节点的集群设置。HBase/Hadoop服务在集群上运行的是:NODENAME--ROLENode1--NameNodeNode2--RegionServer,SecondaryNameNode,DataNode,MasterNode3--RegionServer,DataNode,ZookeeperNode4--RegionServer,DataNode,ZookeeperNode5--RegionServer,DataNode,ZookeeperNode6-

performance - 估计伪分布式节点上的 Hadoop 可扩展性性能?

是否有任何工具、包或方法可用于仅使用使用伪分布式架构的单台机器来估计/模拟Hadoop的可扩展性性能?这样的系统需要根据在模拟中相互不干扰的作业(例如,阻塞的I/O)做出准确的估计。在我看来,这是如何工作的,我会按顺序运行我所有的map/reduce作业,并使用一些指标来估计系统的扩展程度(例如,采用运行时间最长的map作业并估计运行时间将成为瓶颈)。此外,我有多个map/reduce作业,它们被链接在一起以形成输出。 最佳答案 我认为这在很大程度上取决于您的工作性质。让我们试着举几个例子:1.你的工作有大量的输入格式和映射器处理,

performance - Hadoop 性能建模

我正在研究Hadoop性能建模。Hadoop有200多个参数,因此无法手动设置它们。我们经常使用默认参数值运行hadoop作业(例如使用默认值io.sort.mb、io.sort.record.percent、mapred.output.compress等)。但是使用默认参数值给了我们次优性能。HerodotosHerodotou(http://www.cs.duke.edu/starfish/files/vldb11-job-optimization.pdf)在这方面做了一些工作来提高性能。但我对他们的工作有以下疑问--他们在作业开始时(根据数据的比例假设)为MapReduce作业的

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能,我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot),如何计算并发吞吐量? 最佳答案 这是一篇很好的简单文章,它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

performance - 如何做Hadoop集群的负载和性能测试?

是否有任何工具可以生成具有预定义的用户请求增加(运行相同的map-reduce作业)并监控负载下Hadoop集群的某些特定指标的自动化场景?我正在寻找类似LoadRunner的东西但免费/开源工具。该工具不一定要有很酷的用户界面,而是能够记录和保存场景,其中包括供多个用户使用的加速和会合点(等到其他用户到达某个点并同时执行某些操作)。我要测试的Hadoop发行版是最新的MapR。搜索互联网并没有为HPLoadRunner带来任何好的免费替代品。如果您有Hadoop(或特别是MapR)负载测试的经验,请分享您使用的工具。 最佳答案 您

performance - 协助减少 distcp 操作的执行时间

我们有许多distcp作业将数据从我们的主集群复制到我们的备份集群。这些作业全天运行并复制关键数据库的几乎所有表。我们在这里使用webhdfs。其中一些作业运行数小时(对于巨大的表(ORC格式的))。有什么方法可以优化两个集群之间的distcp操作。欢迎提出任何建议。我们尝试使用带宽来加速。以下是我们脚本的摘录。PROP="-Dmapreduce.task.timeout=300000-Dmapred.job.queue.name=$YARN_QUEUE-Dmapred.job.name="cpy-${jobName}"-bandwidth800"hadoopdistcp${PROP}

performance - 配置单元分析查询花费大量时间

为了加快对大型表的ETL查询,我们在晚上对这些表和日期列运行许多analyze查询。但是这些针对列的analyze查询会占用大量内存和时间。我们正在使用tez。有什么方法可以像一些设置命令一样优化analyze查询。 最佳答案 如果您使用插入覆盖加载表,则可以通过在插入覆盖查询期间设置hive.stats.autogather=true自动收集统计信息。如果表是分区的并且分区是增量加载的,那么你可以只分析最后的分区。ANALYZETABLE[db_name.]tablename[PARTITION(partcol1[=val1],p

spring - 请求的 bean 当前正在创建中 : Is there an unresolvable circular reference?

我正在使用spring3,并且我有两个View范围的bean:1-Bean1:@Component("bean1")@Scope("view")publicclassBean1{@AutowiredprivateBean2bean2;}2-Bean2:@Component("bean2")@Scope("view")publicclassBean2{@AutowiredprivateBean1bean1;}View是自定义范围:这是自定义View范围的代码:publicclassViewScopeimplementsScope{@SuppressWarnings("rawtypes")