慢

java - 与 csv 文件相比，将 mysql 表转换为 spark 数据集非常慢

我在Amazons3中有一个大小为62mb(114000行)的csv文件。我正在将它转换为spark数据集，并从中获取前500行。代码如下；DataFrameReaderdf=newDataFrameReader(spark).format("csv").option("header",true);Datasetset=df.load("s3n://"+this.accessId.replace("\"","")+":"+this.accessToken.replace("\"","")+"@"+this.bucketName.replace("\"","")+"/"+this.fil

mysql spark 34 code java apache-spark jdbc amazon-s3

hadoop - 为什么 Hbase with Hadoop map reduce 性能慢？

我已经在3台具有完全分布式模式的机器上配置了hadoop1.0.3。在下面的第一台机器上，作业正在运行:1)4316SecondaryNameNode4006NameNode4159数据节点4619任务追踪器4425JobTracker2)2794任务追踪器2672数据节点3)3338数据节点3447任务追踪器现在当我在上面运行简单的mapreduce作业时，执行mapreducejob需要更长的时间。所以我在Hadoop上安装了HBASE层。现在我在3个集群上有以下HBASE进程。1)5115HQuorumPeer5198HMaster5408HRegionServer2)3719H

hadoop code 39 追踪器 cloud hbase

hadoop - Mahout - 朴素贝叶斯模型非常慢

我有大约6200个类别的大约4400万个训练示例。训练后，模型大小约为450MB在测试时，使用5个并行映射器(每个映射器都有足够的RAM)，分类以每秒约4个项目的速度进行，这太慢了。如何加快速度？我能想到的一种方法是减少语料库这个词，但我担心会失去准确性。我将maxDFPercent设置为80。我想到的另一种方法是通过聚类算法运行项目，并根据经验最大化集群的数量，同时将每个类别中的项目限制在单个集群中。这将使我能够为每个集群构建单独的模型，从而(可能)减少训练和测试时间。还有其他想法吗？编辑:在得到下面给出的一些答案之后，我开始考虑通过运行聚类算法来进行某种形式的下采样，识别彼此“高度

贝叶朴素 section noreferrer 射器 hadoop machine-learning classification cluster-analysis mahout

hadoop - Spark 将数据写入分区的 Hive 表非常慢

我想以普通可读文本格式将Spark数据帧存储到Hive表中。为此，我首先做了sqlContext.sql("SETspark.sql.hive.convertMetastoreParquet=false")我的DataFrame是这样的:final_data1_df=sqlContext.sql("selecta,bfromfinal_data")我正在尝试通过以下方式编写它:final_data1_df.write.partitionBy("b").mode("overwrite").saveAsTable("eefe_lstr3.final_data1")但这很慢，甚至比HIVE写

hadoop Spark final_data section 34 apache-spark pyspark spark-dataframe

R textConnection速度慢

我有多个文件要加载，想将它们连接成一个数据框。我正在尝试使用textConnection，但它运行得非常慢。这是我将数据加载到R时的样子:"1995200008,10,1995,5190.61,73300""1995200010,1,1995,6776.44,42652""1995200011,11,1995,2315.83,4169""1995200014,6,1995,9846.79,2113""1995200017,8,1995,3978.93,2449""1995200018,6,1995,3582.69,2449""1995200022,7,1995,10409.18,285

textConnection 速度 section code 34 r hadoop

sql - 为什么 Select Count() 比 Hive 中的 Select 慢

当我使用配置单元在VirtualBoxSandbox中运行查询时。我觉得Selectcount(*)比Select*慢太多了。谁能解释一下背后发生了什么？为什么会出现这种延迟？最佳答案 select*fromtable它可以是一个只有Map的工作但是SelectCount(*)fromtable它可以是Map和Reduce作业希望这对您有所帮助。关于sql-为什么SelectCount(*)比Hive中的Select*慢，我们在StackOverflow上找到一个类似的问题：

Select Count section code sql hadoop hive

火眼金睛破局ES伪慢查询 | 京东物流技术团队

一、问题现象服务现象服务接口的TP99性能降低ES现象YGC：耗时极其不正常,峰值200+次，耗时7s+FULLGC：不正常,次数为1但是频繁，STW5s慢查询：存在慢查询5+二解决过程1、去除干扰因素从现象上看应用是由于某种原因导致JVM内存使用率不断增长，触发了频繁的YGC进而触发FGC（此时只是大胆的猜测）。此时ES的JVM配置是JVM内存40G，使用CMS垃圾回收器。40G的内存使用CMS垃圾回收器性能显然不如G1更合适找ES运维同学垃圾回收器由CMS修改为G1（tips:不是所有的ES都适合G1,针对很多大查询的G1的FullGC会导致GC模式退化为串行扫描整个堆，导致几十秒甚至是分

京东火眼 xff img xff0c elasticsearch 大数据搜索引擎

php - 函数 session_start() 的问题(运行缓慢)

我在主服务器上遇到session_start()问题。当我第一次加载页面时，完成请求需要不到1秒的时间。如果我等待大约12-15秒然后重新加载页面，加载时间将相同。但是当我尝试在初始加载后例如3或5秒后刷新页面时，服务器的响应时间等于10秒。我做了一些测试来定义我的脚本中的瓶颈，我发现函数session_start()执行了9.8秒。我正在使用PEAR包HTTP_Session2。这是代码片段:HTTP_Session2::useCookies(SESSION_USE_COOKIE);/*Nextlinewasaddedtomakeloggingofexecutiontimepossi

session_start session HTTP HTTP_Session code php apache execution-time

PHP ZF2 单元测试调度方法非常慢

我需要测试一个用ZF2编写的大型站点。有443个测试和大约10000个断言。代码覆盖率测试需要6个小时!我想我发现了问题:在Controller的测试中，我使用了AbstractHttpControllerTestCase中的调度方法。dispatch方法的执行时间在每次测试后都在增加(从几分之一秒到几十秒)。我使用ZF2.1.3、PHPUnit3.7、PHP_CodeCoverage1.2、Xdebugv2.2.1、PHP5.4.7。我的派发方式:publicfunctiondispatch($url,$method=HttpRequest::METHOD_GET,$params=a

PHP ZF2 code 39 config unit-testing phpunit zend-framework2 zend-test

php - 由于小的 JOIN/WHERE 过滤器，PostgreSQL Select 语句非常慢

2013-05-29:使用最新配置和额外信息更新了问题。早些时候我在virtualbox图像中进行测试。现在我正在生产服务器上进行测试，它更好地反射(reflect)了现实世界。现在问题应该很清楚了。如果你之前帮助过我，请仔细阅读一遍目前我在PostgreSQL中发现了一个非常慢的查询，尽管我不明白它是如何变慢的。我将它缩小了一点，所以在这里发布它要小得多(而且快得多，但仍然很慢!)。小背景:在这个项目中，我有属于用户的广告。用户是国内某个地区的一部分。一个区域可以有多个子区域，所以区域表是一棵树。一个网络被分配给一个区域。在网络上过滤时，它应该过滤该区域及其在树中的所有子区域。因为我

PostgreSQL Select id area rows php doctrine-orm

37 38 394041 42 43