草庐IT

High-Performance

全部标签

performance - 调整使用底层 HBase 表的 Hive 查询

我在Hbase中有一个表,让我们说“tbl”,我想使用hive。因此,我将表映射到配置单元如下:CREATEEXTERNALTABLEtbl(idstring,datamap)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,data:")TBLPROPERTIES("hbase.table.name"="tbl");查询如:select*fromtbl","selectidfromtbl","selectid,dataf

performance - 小文件的 HDFS 性能

我是Hadoop新手。最近我正在尝试处理(仅读取)hdfs/hadoop上的许多小文件。平均文件大小约为1kb,文件数量超过10M。由于某些限制,该程序必须用C++编写。这只是一个性能评估,所以我只使用5台机器作为数据节点。每个数据节点有5个数据盘。我编写了一个小型C++项目来直接从硬盘读取文件(而不是从HDFS)以构建性能基线。该程序将为每个磁盘创建4个读取线程。性能结果是每个磁盘大约有14MB/s。总吞吐量约为14MB/s*5*5=350MB/s(14MB/s*5磁盘*5台机器)。但是,当这个程序(仍然使用C++,动态链接到libhdfs.so,创建4*5*5=100个线程)从hd

performance - Hive:是否有更好的方法对列进行百分位排名?

目前,要对hive中的列进行百分位数排名,我使用的是类似以下的内容。我正在尝试按项目所属的百分位数对列中的项目进行排名,为每个项目分配一个0到1的值。下面的代码分配了一个从0到9的值,本质上是说char_percentile_rank为0的项目在项目的后10%中,值为9的项目在前10%中.有更好的方法吗?selectitem,characteristic,casewhencharacteristic注意:我必须执行collect_set以避免自连接,因为百分位数函数隐式执行groupby。我发现百分位数函数非常慢(至少在这种用法中)。也许手动计算百分位数会更好?

performance - Hadoop Hive 慢查询

我是HadoopHive的新手,我正在开发一个报告解决方案。问题是查询性能真的很慢(hive0.10,hbase0.94,hadoop1.1.1)。其中一个查询是:selecta.*,b.country,b.cityfromp_country_town_hotelbinnerjoinp_hotel_rev_agg_periodaon(a.key.hotel=b.hotel)whereb.hotel='AdriaPraha'anda.min_date这需要相当长的时间(50秒)。我知道我知道,连接是在字符串字段上而不是在整数上,但数据集并不大(cca3300和100000条记录)。我尝试

performance - 使用 Hadoop 的经验?

你们中有人尝试过Hadoop吗?在无共享架构中,它可以在没有随附的分布式文件系统的情况下使用吗?这有意义吗?我也对您的任何性能结果感兴趣... 最佳答案 是的,您可以在本地文件系统上使用Hadoop,方法是在各个地方使用文件URI而不是hdfsURI。我认为Hadoop附带的很多示例都是这样做的。如果您只是想了解Hadoop的工作原理和基本的map-reduce范例,这可能很好,但是您将需要多台机器和分布式文件系统才能获得架构固有的可扩展性的真正好处。 关于performance-使用H

performance - Spark : Inconsistent performance number in scaling number of cores

我正在使用排序基准对Spark进行简单的扩展测试——从1个核心到8个核心。我注意到8核比1核慢。//runsparkusing1corespark-submit--masterlocal[1]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output//runsparkusing8coresspark-submit--masterlocal[8]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output每种情况下的输入和输出目录都在HDFS中。1core:80secs8cores:1

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我在SparkSQL中都尝试过设置,但是第二阶段的任务数一直是200。 最佳答案 来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

performance - Symfony2 应用程序在 VirtualBox 中非常慢

我在VirtualBox上运行Debian的虚拟副本,以在nginx/php5-fpm/MySQL堆栈上开发更大的PHP应用程序。开发在主机操作系统(Windows7x64)中进行,代码作为共享文件夹安装在guest操作系统中。性能很差。以下是nativevbox文件系统和带有cifs的samba挂载的webgrind输出:在任何一种情况下,filemtime、file_exists和is_readable都需要几秒钟才能运行。CPU负载非常高,内存使用似乎正常。这三个函数的输出不是缓存在统计缓存中吗?他们为什么要花这么长时间?如果能得到任何帮助,我将不胜感激!编辑:澄清一下,生产性能

php - 如何在 MacOS High Sierra 上为 php@7.1 安装 memcached 模块?

我在为php7.1安装memcached模块时遇到问题。我使用MacOSHighSierra和php@7.1使用自制软件安装。在使用命令为php安装memcached模块期间peclinstallmemcached我收到错误:checkingforzliblocation...configure:error:memcachedsupportrequiresZLIB.Use--with-zlib-dir=tospecifytheprefixwhereZLIBheadersandlibraryarelocatedERROR:`/private/tmp/pear/install/memcac

Laravel Eloquent vs DB外观: Why use Eloquent and decrease performance?

关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭2年前。Improvethisquestion我在Laravel'sDBfacadequerybuilder之间进行了一些性能测试和Laravel'sEloquentORM.对于许多SQL语句(SELECT、UPDATE、DELETE、INSERT),DB外观比Eloquent快得多。那么为什么有人会使用较慢的LaravelEloquent而不是较快的DB外观? 最佳答案 Eloquent是La