database-performance

database - 创建 Hive Metastore 数据库表错误

我正在运行ClouderaManager(免费版)，我到达了向导创建HiveMetastore数据库的地步。显示此错误并停止配置过程。使用/var/run/cloudera-scm-agent/process/40-hive-metastore-create-tables/hadoop-conf作为HADOOP_CONF_DIR我似乎找不到任何可能导致此问题的信息？到目前为止，一切都已正确配置，安装的一切以及用户名和密码都是正确的。有人以前见过这个错误吗？想法？错误日志:atsun.reflect.DelegatingConstructorAccessorImpl.newInstanc

database - 将数据从 HDFS 加载到 Vertica

从HDFS加载数据到vertica时出现以下错误我只是停止了以前工作的数据库并在Vertica中创建了新数据库。然后我跑了vsql-f[AggregateFunctions.sql,AnalyticFunctions.sql,FilterFunctions.sql,JavaFunctions.sql,JavaUDLFunctions.sql,ParserFunctions.sql,SourceFunctions.sql,TransformFunctions.sql]当我尝试使用以下命令从HDFS加载数据时COPYexploded001SOURCEHdfs(url='http://had

database Vertica section code sql hadoop hdfs webhdfs

database - 如何按频率对 Google 数据库(或托管在 AWS 上的数据库)中的 ngram 进行排序

我正在寻找一种按频率订购GoogleBook的Ngram的方法。原始数据集在这里:http://books.google.com/ngrams/datasets.在每个文件中，ngram按字母顺序排序，然后按时间顺序排序。我的电脑不够强大，无法处理2.2TB的数据，所以我认为唯一的排序方式是“在云端”。AWS托管版本在这里:http://aws.amazon.com/datasets/8172056142375670.是否有经济有效的方法来找到10,000个最常见的1grams、2grams、3grams、4grams和5grams？麻烦的是，数据集包含多年的数据:Asanexampl

database Google section code grams hadoop

hadoop - 配置单元 : Drop database

我需要在配置单元中删除一个大数据库，但我找不到选项here跳过垃圾，如purge删除表。当为垃圾应用空间配额时，这可能会造成麻烦!任何仅使用配置单元DDL命令的建议？要清楚:我做什么:Dropdatabasecascade;我在寻找什么或类似的东西:Dropdatabasecascadepurge; 最佳答案配置单元默认.xmlhive.warehouse.data.skipTrashtrueSetthistotrueifyoudonotwanttabledatatobemovedtotrashwhiledroppingtable

配置单 database section code hadoop hive

performance - Hadoop 等开源计算平台的效率如何？

Hadoop等开源分布式计算框架的效率如何？我所说的效率是指可用于大多数纯计算任务中的“实际工作”的CPU周期。换句话说，有多少CPU周期用于开销，或因未使用而浪费？我不是在寻找具体数字，只是一个粗略的图片。例如。我可以期望使用集群90%的CPU能力吗？99%？99.9%？更具体地说，假设我想计算PI，并且我有一个算法X。当我在一个紧密循环的单核上执行此操作时，假设我获得了一些性能Y。如果我在使用例如分布式方式Hadoop，我期望性能下降多少？我知道这取决于很多因素，但粗略的幅度是多少？如果重要的话，我正在考虑一个可能有10-100个服务器(总共80-800个CPU内核)的集群。谢谢!

performance Hadoop section 的 mapreduce

hadoop - java.sql.SQLException : Failed to start database '/var/lib/hive/metastore/metastore_db' in hive 异常

我是hive的初学者。当我尝试执行任何配置单元命令时:hive>显示表格；它显示以下错误:FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',seethenextexceptionfordetails.NestedThrowables:java.sql.SQLException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',se

metastore hive section hadoop

performance - 如何强制 PigStorage 输出几个大文件而不是数千个小文件？

我在我的pig脚本中使用了这些行:setdefault_parallel20;requests=LOAD‘/user/me/todayslogs.gz’USINGcustomParser;intermediate_results=some_data=FOREACHintermediate_resultsGENERATEday,request_id,result;STOREsome_dataINTO'/user/me/output_data'USINGPigStorage(',');“/user/me/todayslogs.gz”包含数千个gzip文件，每个文件大小为200MB。当脚本完

大文数千 code requests performance hadoop hdfs apache-pig

performance - 用于优化 Hadoop 应用程序可伸缩性的工具？

我正在与我的一个团队合作开发一个小型应用程序，该应用程序需要大量输入(一天的日志文件)并在几个(现在是4个，将来可能是10个)map-reduce步骤(Hadoop&Java).现在我已经完成了这个应用程序的部分POC，并在4个旧桌面(我的Hadoop测试集群)上运行它。我注意到的是，如果您进行“错误”的分区，则水平缩放特性会被破坏得面目全非。我发现比较单个节点(比如20分钟)和所有4个节点上的测试运行只会导致50%的加速(大约10分钟)，而我预计会有75%(或至少>70%)的加速(大约5或6分钟)。使map-reduce水平缩放的一般原则是确保分区尽可能独立。我发现在我的例子中，我对

可伸缩性 performance section 的 Hadoop mapreduce partitioning horizontal-scaling

performance - 为什么 TeraSort 映射阶段在 CRC32.update() 函数中花费大量时间？

我正在尝试分析哪些函数在TeraSortHadoop作业中消耗的时间最多。对于我的测试系统，我使用的是基本的单节点伪分布式设置。这意味着NameNode、DataNode、Tasktracker和JobtrackerJVM都在同一台机器上运行。我首先使用TeraGen生成约9GB的数据，然后在其上运行TeraSort。当JVM执行时，我使用VisualVM对它们的执行进行采样。我知道这不是目前最准确的分析器，但它是免费且易于使用的!我使用最新版本的Apachehadoop发行版，我的实验在基于IntelAtom的系统上运行。当我查看VisualVM中热点方法的自用时间(CPU)时，我发

performance TeraSort 的 section CRC hadoop mapreduce visualvm crc32

performance - Hadoop MapReduce 吞吐量问题

我很有趣——什么才算是好的吞吐量对于每个节点的hadoop轻量级文本数据处理？更具体地说，我会问:假设我必须读取csv文件，解析它们并计算某些列中特定值的数量。让我们假设值很少见，所以减少步骤很快。对于现代四核CPU/4GBRAM/4SATADisk机器，我期望每个hadoop节点的吞吐量是多少？最佳答案我觉得这个问题很有道理。我对hadoop集群的吞吐量有一个印象(SizeOfInput+SizeOfOutput)/RuntimeInSeconds/NumberOfDisks对于yahooPB-Sort在3800个节点上运行使

吞吐 performance section hadoop

31 32 333435 36 37