草庐IT

innodb-performance-optimization

全部标签

performance - sqoop 导出性能问题

我在通过sqoop导出将数据从Hive导出到Netezza时遇到性能问题。有没有办法提高sqoop的性能?详情如下:columnspresentinthetable(sourceanddestination):282formatoffile:textnoofsplits:99datatobeexported:1000MB 最佳答案 在sqoopexport命令中使用-batch。还有要进一步改善数据加载,您可以使用--direct。限制:此模式不支持二进制和大对象类型。 关于perfor

sql - Hive Optimizer 在优化 View 查询时是否考虑 View 定义?

我有这个架构(通过DDL为表和View提供):hive>createtablet_realtime(cust_idint,namestring,statusstring,active_flagint);hive>createtablet_hdfs(cust_idint,namestring,statusstring,active_flagint);hive>createviewt_inactiveasselect*fromt_hdfswhereactive_flag=0;hive>createviewt_viewasselect*fromt_realtimeunionallselect

performance - Informatica BDE 摄取作业运行 10 多个小时,终止并重新运行后 3 小时内完成

关于我的个人资料-我正在为集群上运行的一些BDEInformatica摄取作业提供L3支持。我们的目标是帮助应用程序团队满足SLA。我们支持在Hadoop层(Hive)之上运行的作业流。问题陈述-我们观察到,在某些日子里,BDEInformatica摄取作业运行得非常缓慢,而在其他日子里,它们会在3小时内完成其周期。如果作业花费了太多时间,我们通常会终止并重新运行这对我们有帮助,但这并不能帮助我们解决根本原因。我们个人资料的局限性-不幸的是,我没有应用程序代码或Informatica工具,但我必须联系开发团队并询问相关问题,以便我们缩小根本原因的范围。后续步骤-什么样的情况会导致这种延

performance - Hadoop 是否适合为 50GB 数据集中的 100 字节记录提供服务?

我们有一个问题,Hadoop是否适合不需要运行应用程序但需要非常快速地读取和写入少量数据的简单任务。要求是能够以每秒30次的速度写入带有几个索引的大约100-200字节长的消息,同时能够以大约每秒10次的速度读取(通过这两个索引进行搜索)秒。读取查询必须非常快-每个查询最多100-200毫秒并返回少量匹配记录。总数据量预计将达到50-100GB,并通过删除较旧的记录来维持此速度(类似于删除超过14天的记录的日常任务)如您所见,总数据量并没有那么大,但我们担心Hadoop的搜索速度无论如何都可能比我们需要的慢。Hadoop是解决这个问题的方法吗?谢谢尼克 最佳

hadoop - 配置单元设置 hive.optimize.sort.dynamic.partition

我正在尝试插入具有动态分区的配置单元表。同一查询在过去几天一直运行良好,但现在出现以下错误。DiagnosticMessagesforthisTask:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeError:Unabletodeserializereduceinputkeyfromx1x128x0x0x46x234x240x192x148x1x68x69x86x50x0x1x128x0x104x118x1x128x0x0x46x234x240x192x148

performance - 在 Hadoop 中提高 MapReduce 作业性能的技巧

我有100个映射器和1个reducer在工作中运行。如何提高工作绩效?据我了解:combiner的使用可以在很大程度上提高性能。但是我们还需要配置什么来提高作业性能? 最佳答案 由于此问题中的数据有限(输入文件大小、HDFSblock大小、平均map处理时间、集群中的Mapper槽数和Reduce槽数等),我们无法提供提示。但是有一些通用准则可以提高性能。如果每项任务花费的时间少于30-40秒,则reducetask数量如果作业的输入超过1TB,请考虑将输入数据集的block大小增加到256M甚至512M,这样任务的数量就会变少.只

performance - 有没有办法识别或检测 Hive 表中的数据倾斜?

我们有许多需要花费大量时间的配置单元查询。我们正在使用tez和其他良好实践,例如CBO,使用orc文件等。有没有办法像某些命令一样检查/分析数据偏差?解释计划会有帮助吗?如果有帮助,我应该寻找哪个参数? 最佳答案 解释计划对此无济于事,您应该检查数据。如果是join,从join涉及的所有表中选top100joinkeyvalue,如果是解析函数,partitionbykey也一样,看是否偏斜。例子:selectkey,count(*)cntfromtablegroupbykeyhavingcount(*)>1000--checkal

performance - HBase 客户端写入性能差

我在我的应用程序服务器(-cumweb服务器)中使用HBase客户端和HBase使用CDH3u4(HBase-0.90)的6个节点的集群设置。HBase/Hadoop服务在集群上运行的是:NODENAME--ROLENode1--NameNodeNode2--RegionServer,SecondaryNameNode,DataNode,MasterNode3--RegionServer,DataNode,ZookeeperNode4--RegionServer,DataNode,ZookeeperNode5--RegionServer,DataNode,ZookeeperNode6-

performance - 估计伪分布式节点上的 Hadoop 可扩展性性能?

是否有任何工具、包或方法可用于仅使用使用伪分布式架构的单台机器来估计/模拟Hadoop的可扩展性性能?这样的系统需要根据在模拟中相互不干扰的作业(例如,阻塞的I/O)做出准确的估计。在我看来,这是如何工作的,我会按顺序运行我所有的map/reduce作业,并使用一些指标来估计系统的扩展程度(例如,采用运行时间最长的map作业并估计运行时间将成为瓶颈)。此外,我有多个map/reduce作业,它们被链接在一起以形成输出。 最佳答案 我认为这在很大程度上取决于您的工作性质。让我们试着举几个例子:1.你的工作有大量的输入格式和映射器处理,

optimization - 为 Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的Hadoop流作业的第一步,我的性能非常糟糕:在我看来,映射器从S3读取大约40KB/s-50KB/s。从S3读取约100MB的数据需要一个多小时!数据的存储方式:S3存储桶中有数千个~5-10KBGZip文件。我最近解压了一个100MB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务在3分钟内完成(对比之前的1小时运行)受到鼓舞,我解压了一个2GB样本数据集的所有文件,并将其作为单个GZip文件上传到同一个S3存储桶中,我的任务再次花费了1个多小时:之后我终止了任务.我还没有玩过mapred.min.split.size和mapred.max.