database-performance

performance - 在 Hadoop mapreduce 作业中重用 JVM

我知道我们可以设置属性“mapred.job.reuse.jvm.num.tasks”来重新使用JVM。我的问题是:(1)如何决定这里要设置的任务个数，-1还是其他一些正整数？(2)在mapreduce作业中重用JVM并将此属性设置为-1的值是个好主意吗？非常感谢! 最佳答案如果您有非常小的任务，这些任务肯定会在彼此之后运行，将此属性设置为-1很有用(意味着生成的JVM将被无限次重复使用)。因此，您只需生成(集群中可供您的作业使用的任务数)-JVM，而不是(任务数)-JVM。这是一个巨大的性能改进。在长时间运行的作业中，与设置新J

重用 performance section 长时 hadoop jvm mapreduce

database - HBase 错误 - 分配 -ROOT- 失败

我刚刚从cloudera(3)安装了hadoop和hbase，但是当我尝试转到http://localhost:60010时它只是坐在那里不断加载。我可以正常访问区域服务器-http://localhost:60030...查看主hbase服务器日志，我可以看到以下内容。看起来像是根区域的问题。所有这些都安装在运行Ubuntu(Natty)11的ext41TB分区上。没有集群/其他盒子。任何帮助都会很棒!11/05/1519:58:27WARNmaster.AssignmentManager:Failedassignmentof-ROOT-,,0.70236052toserverNam

database HBase hadoop apache nosql cloudera

database - 向 hive 表中插入数据

使用Cygwin发行版，我安装了Hadoop0.20.3和Hive0.11.0。首先，我不明白如何使用HiveCLI:hive>showtables;然后输入，没有任何反应。我可以使用hive-e/-f.执行查询然后，我创建了一个表:CREATETABLEtweet_table(tweetSTRING)COMMENT'Tableofstring'但是我怎样才能将数据插入到这个表中呢？我看到了一些INSERTINTO示例，但是当我尝试时:INSERTINTOTABLEtweet_table(tweet)VALUES("data")我有一个错误:FAILED:ParseExceptionl

database hive code section pre hadoop

database - Spark : run InputFormat as singleton

我正在尝试将键值数据库集成到Spark中并有一些问题。我是Spark初学者，阅读了很多书并运行了一些示例，但什么也没有复杂。场景:我正在使用小型hdfs集群将传入消息存储在数据库中。集群有5个节点，数据被拆分为5个分区。每个分区存储在单独的数据库文件中。因此每个节点都可以处理它自己的数据分区。问题:数据库软件的接口(interface)基于JNI，数据库本身是在C中实现。由于技术原因，数据库软件可以维护一次只有一个事件连接。只能有一个JVM进程已连接到数据库。由于这个限制，读取和写入数据库必须去通过相同的JVM进程。(背景信息:数据库嵌入到流程中。它是基于文件的，并且一次只能有一个进程

InputFormat singleton section strong Spark database hadoop apache-spark

database - 稀疏数据/数据存储/数据库是什么意思？

最近一直在阅读Hadoop和HBase，并遇到了这个术语-HBaseisanopen-source,distributed,sparse,column-orientedstore...稀疏是什么意思？它与sparsematrix有关吗？？我猜这是它可以有效存储的数据类型的一个属性，因此想了解更多。最佳答案在常规数据库中，行是稀疏的，但列不是。创建行时，会为每一列分配存储，而不管该字段是否存在值(字段是为行和列的交集分配的存储)。这允许固定长度的行大大改善读取和写入时间。可变长度数据类型使用指针的模拟来处理。稀疏列会导致性能下降并

稀疏 database section strong hadoop database-schema hbase sparse-matrix

performance - 分布式局部聚类系数算法(MapReduce/Hadoop)

我已经实现了基于MapReduce范例的localclusteringcoefficientalgorithm.但是，对于更大的数据集或特定的数据集(节点的平均度数高)，我遇到了严重的麻烦。我试图调整我的hadoop平台和代码，但结果并不令人满意(至少可以这么说)。不，我已经将注意力转移到实际更改/改进算法上。下面是我目前的算法(伪代码)foreach(NodeinGraph){//Job1/*Transformedge-basedinputdatasettonode-baseddataset*///Job2map(){emit(this.Node,this.Node.neighbou

performance MapReduce 的 section nodeNeighbourhood algorithm graph hadoop

php - implicit_flush 的 "serious performance implications"是什么？

我网站的管理部分有一堆非常慢的报告生成脚本，它们在生成时逐行echo输出。要立即将此输出刷新到浏览器，而不是用户必须等待几分钟才能看到任何响应，我们有output_buffering禁用，我们调用ob_implicit_flush在此类脚本的开头。为了方便起见，我考虑只打开implicit_flush在php.ini中设置，而不是向每个将从中受益的脚本添加ob_implicit_flush()调用。但是，该文档包含以下可怕但无法解释的评论:implicit_flush...WhenusingPHPwithinanwebenvironment,turningthisoptiononhas

implicit_flush implications code implicit flush php configuration output-buffering php-ini

php - Doctrine 2 : Generated entities from database don't have namespaces

我正在通过\Doctrine\ORM\Tools\DisconnectedClassMetadataFactory()类从数据库创建实体。这非常有效!除了namespace生成。没有生成namespace。我将我的实体存储在App/Model/Entities中。有谁知道如何让生成器为实体添加命名空间？这是我用来生成实体的代码:getConfiguration()->setMetadataDriverImpl(new\Doctrine\ORM\Mapping\Driver\DatabaseDriver($em->getConnection()->getSchemaManager()))

namespaces Generated entityGenerator section Doctrine php doctrine-orm

performance - 如何监控缓慢的 PHP 进程？

我用Nginx运行PHP-FPM。我的服务器上有各种不同的脚本。有时，PHP代码有问题，处理时间过长。这会消耗所有可用的PHP-FPM子对象；因此，阻碍了其他php脚本。当我们监控缓慢的mysql查询时，如何设置PHP-FPM日志来记录缓慢的php进程，以检测导致问题的脚本？最佳答案 php-fpm支持php脚本的慢速日志记录功能在你的php-fpm.conf中你需要添加2个变量request_slowlog_timeout和slowlog根据php-fpmwiki;为单个请求提供服务的超时时间，之后将进行PHP回溯;转储到“sl

performance 缓慢 section slowlog 慢速 logging php

php - fatal error : Class 'database' not found - PHP

当我尝试使用问题类时，出现以下错误:Fatalerror:Class'database'notfoundinpath/problem.phponline25我不明白为什么会出现此错误，在problem.php的顶部我需要database.php。发生了什么事？问题.php数据库.php 最佳答案这可能是一个包含路径问题。为了修复它，在你的problem.php文件中这样做:echorealpath(dirname(__FILE__));会输出类似的内容/var/www/html/我的文件路径/您的文件problem.php将在该目

amp database code php

34 35 363738 39 40