草庐IT

innodb-performance-optimization

全部标签

mysql - 如何解决mysql警告: "InnoDB: page_cleaner: 1000ms intended loop took XXX ms. The settings might not be optimal "?

我在服务器上运行了一个mysqlimportmysqldummyctrad这些正常消息/状态是否“等待表刷新”以及消息InnoDB:page_cleaner:1000ms预期循环花费了4013ms。设置可能不是最佳的mysql日志内容2016-12-13T10:51:39.909382Z0[Note]InnoDB:page_cleaner:1000msintendedlooptook4013ms.Thesettingsmightnotbeoptimal.(flushed=1438andevicted=0,duringthetime.)2016-12-13T10:53:01.170388

mysql - 如何在 MySQL innoDB 中重建索引和更新统计信息?

我有使用MSSQL服务器的经验,这对updatestatistic来说是可能和有用的和rebuildindexes.我在MySQLinnoDB中找不到这样的选项,有这样的选项吗?如果没有,MySQL数据库如何创建执行计划?MySQL是否会在每次UPDATE和INSERT时更新索引和统计信息? 最佳答案 这是用完成的ANALYZETABLEtable_name;阅读更多信息here.ANALYZETABLEanalyzesandstoresthekeydistributionforatable.Duringtheanalysis,th

mysql - 如何在 MySQL innoDB 中重建索引和更新统计信息?

我有使用MSSQL服务器的经验,这对updatestatistic来说是可能和有用的和rebuildindexes.我在MySQLinnoDB中找不到这样的选项,有这样的选项吗?如果没有,MySQL数据库如何创建执行计划?MySQL是否会在每次UPDATE和INSERT时更新索引和统计信息? 最佳答案 这是用完成的ANALYZETABLEtable_name;阅读更多信息here.ANALYZETABLEanalyzesandstoresthekeydistributionforatable.Duringtheanalysis,th

performance - 调整使用底层 HBase 表的 Hive 查询

我在Hbase中有一个表,让我们说“tbl”,我想使用hive。因此,我将表映射到配置单元如下:CREATEEXTERNALTABLEtbl(idstring,datamap)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,data:")TBLPROPERTIES("hbase.table.name"="tbl");查询如:select*fromtbl","selectidfromtbl","selectid,dataf

performance - 小文件的 HDFS 性能

我是Hadoop新手。最近我正在尝试处理(仅读取)hdfs/hadoop上的许多小文件。平均文件大小约为1kb,文件数量超过10M。由于某些限制,该程序必须用C++编写。这只是一个性能评估,所以我只使用5台机器作为数据节点。每个数据节点有5个数据盘。我编写了一个小型C++项目来直接从硬盘读取文件(而不是从HDFS)以构建性能基线。该程序将为每个磁盘创建4个读取线程。性能结果是每个磁盘大约有14MB/s。总吞吐量约为14MB/s*5*5=350MB/s(14MB/s*5磁盘*5台机器)。但是,当这个程序(仍然使用C++,动态链接到libhdfs.so,创建4*5*5=100个线程)从hd

performance - Hive:是否有更好的方法对列进行百分位排名?

目前,要对hive中的列进行百分位数排名,我使用的是类似以下的内容。我正在尝试按项目所属的百分位数对列中的项目进行排名,为每个项目分配一个0到1的值。下面的代码分配了一个从0到9的值,本质上是说char_percentile_rank为0的项目在项目的后10%中,值为9的项目在前10%中.有更好的方法吗?selectitem,characteristic,casewhencharacteristic注意:我必须执行collect_set以避免自连接,因为百分位数函数隐式执行groupby。我发现百分位数函数非常慢(至少在这种用法中)。也许手动计算百分位数会更好?

performance - Hadoop Hive 慢查询

我是HadoopHive的新手,我正在开发一个报告解决方案。问题是查询性能真的很慢(hive0.10,hbase0.94,hadoop1.1.1)。其中一个查询是:selecta.*,b.country,b.cityfromp_country_town_hotelbinnerjoinp_hotel_rev_agg_periodaon(a.key.hotel=b.hotel)whereb.hotel='AdriaPraha'anda.min_date这需要相当长的时间(50秒)。我知道我知道,连接是在字符串字段上而不是在整数上,但数据集并不大(cca3300和100000条记录)。我尝试

performance - 使用 Hadoop 的经验?

你们中有人尝试过Hadoop吗?在无共享架构中,它可以在没有随附的分布式文件系统的情况下使用吗?这有意义吗?我也对您的任何性能结果感兴趣... 最佳答案 是的,您可以在本地文件系统上使用Hadoop,方法是在各个地方使用文件URI而不是hdfsURI。我认为Hadoop附带的很多示例都是这样做的。如果您只是想了解Hadoop的工作原理和基本的map-reduce范例,这可能很好,但是您将需要多台机器和分布式文件系统才能获得架构固有的可扩展性的真正好处。 关于performance-使用H

performance - Spark : Inconsistent performance number in scaling number of cores

我正在使用排序基准对Spark进行简单的扩展测试——从1个核心到8个核心。我注意到8核比1核慢。//runsparkusing1corespark-submit--masterlocal[1]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output//runsparkusing8coresspark-submit--masterlocal[8]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output每种情况下的输入和输出目录都在HDFS中。1core:80secs8cores:1

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我在SparkSQL中都尝试过设置,但是第二阶段的任务数一直是200。 最佳答案 来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似