monitor-performance

performance - Hadoop MapReduce 吞吐量问题

我很有趣——什么才算是好的吞吐量对于每个节点的hadoop轻量级文本数据处理？更具体地说，我会问:假设我必须读取csv文件，解析它们并计算某些列中特定值的数量。让我们假设值很少见，所以减少步骤很快。对于现代四核CPU/4GBRAM/4SATADisk机器，我期望每个hadoop节点的吞吐量是多少？最佳答案我觉得这个问题很有道理。我对hadoop集群的吞吐量有一个印象(SizeOfInput+SizeOfOutput)/RuntimeInSeconds/NumberOfDisks对于yahooPB-Sort在3800个节点上运行使

吞吐 performance section hadoop

performance - 方法 v Hadoop MapReduce 中的类级变量

这是一个关于在mapreduce步骤中可写变量和分配的性能的问题。这是一个reducer:staticpublicclassMyReducerextendsReducer{@Overrideprotectedvoidreduce(Textkey,Iterablevalues,Contextcontext){for(Textval:values){context.write(key,newText(val));}}}或者这在性能方面是否更好:staticpublicclassMyReducerextendsReducer{privateTextmyText=newText();@Over

performance MapReduce Text section noreferrer hadoop

performance - 使用 Hive 日期函数而不是硬编码日期字符串时，Hive 查询性能很慢？

我有一个每天更新的事务表table_A。每天我都会使用file_date字段从外部table_B将新数据插入table_A以从外部table_B过滤必要的数据>插入到table_A。但是，如果我使用硬编码日期与使用Hive日期函数，则性能会有很大差异:--Fastversion(~20minutes)SETdate_ingest='2016-12-07';SEThive.exec.dynamic.partition.mode=nonstrict;SEThive.exec.dynamic.partition=TRUE;INSERTINTOTABLEtable_APARTITION(FIL

Hive performance code date date_ingest hadoop query-optimization hiveql

performance - Impala 上的多维数据集运算符

在Impala和PrestoDB之间进行基准测试时，我们注意到在Imapala中构建数据透视表非常困难，因为它不像Presto那样具有Cube运算符。以下是Presto中的两个示例:TheCUBEoperatorgeneratesallpossiblegroupingsets(i.e.apowerset)foragivensetofcolumns.Forexample,thequery:`SELECTorigin_state,destination_state,sum(package_weight)FROMshippingGROUPBYCUBE(origin_state,destina

多维运算符 state destination_state origin_state performance hadoop cloudera impala presto

hadoop - Oozie 简单 ssh 作业失败 : AUTH_FAILED: Not able to perform operation

我正在尝试使用Clouderaoozie进行简单的ssh作业。job.properties:nameNode=hdfs://localhost:8020jobTracker=localhost:8032queueName=defaultexamplesRoot=examplesoozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/sshworkflow.xml:localhostdateSSHactionfailed,errormessage[${wf:errorMessage(wf:l

AUTH_FAILED operation code oozie section hadoop cloudera-quickstart-vm

performance - Hadoop - CPU 密集型应用程序 - 小数据

Hadoop是否适合处理CPU密集型作业并需要处理大约500MB的小文件的作业？我读到过Hadoop旨在处理所谓的大数据，我想知道它如何处理少量数据(但CPU密集型工作负载)。我主要想知道是否存在针对这种情况的更好方法，或者我应该坚持使用Hadoop。最佳答案 Hadoop是一个提出MapReduce引擎的分布式计算框架。如果您可以使用此范例(或Hadoop模块支持的任何其他范例)来表达您的可并行cpu密集型应用程序，则您可以利用Hadoop。Hadoop计算的一个经典示例是Pi的计算，它不需要任何输入数据。正如您将看到的here

密集型 performance Hadoop section cpu

performance - Hadoop 集群 - 集群的正常形式和安全形式之间的性能差异

普通Hadoop集群和配置了Kerberos和SSL的安全Hadoop集群在性能上会有差异吗？考虑到两种类型的集群的机器配置相同，完成一项工作所需的时间是否不同？如果是，我们是否有关于时差的任何已知时间指标？喜欢，普通集群-1.5小时安全集群-2.5小时最佳答案是的。由于Kerberos和SSL，所有API调用都会产生开销。作业完成时间会有所不同，但如果不知道API在作业中被调用了多少次，就无法知道这是多少时间。一般来说，影响很小，但由于您正在将另一个网络组件引入您的工作流程(KDC)，您可能会遇到显着的性能下降取决于您的集群有

performance Hadoop section https kerberos hadoop2

hadoop - pig : Perform task on completion of UDF

在Hadoop中，我有一个看起来像这样的Reducer，用于将数据从先前的映射器转换为一系列非InputFormat兼容类型的文件。protectedvoidsetup(Contextcontext){LocalDatabaseld=newLocalDatabase("localFilePath");}protectedvoidreduce(BytesWritablekey,Textvalue,Contextcontext){ld.addValue(key,value)}protectedvoidcleanup(Contextcontext){saveLocalDatabaseInHD

completion Perform section code apache hadoop apache-pig

performance - Spark 本地 vs hdfs 性能

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3GB的文本文件。我有一个简单的字数统计pyspark程序。如果我提交从本地文件系统读取文件的程序，它会持续大约33秒。如果我提交从hdfs读取文件的程序，它会持续大约46秒。为什么？我期望完全相反的结果。根据sgvd的要求添加:16从1主没有特殊设置的SparkStandalone(复制因子3)版本1.5.2importsyssys.path.insert(0,'/usr/local/spark/python/')sys.path.insert(0,'/usr/l

performance Spark 39 section code hadoop apache-spark

hadoop - Service Monitor 在 HBase 服务中没有找到活跃的 Master

我用clouderaCDH5.8.0做了一个主节点和三个从节点的集群。经过一些配置工作后，我的所有服务都正常运行，但只有一个:HBase。重新启动后几分钟，它的健康状况不佳。ClouderaManager显示的错误是:“错误:Master摘要:此健康测试错误，因为服务监视器未找到事件的Master”。我检查了服务监视器日志，发现了这个警告:(7skipped)ExceptionindoWorkfortask:hbase_HBASE_SERVICE_STATE_TASKorg.apache.hadoop.hbase.client.RetriesExhaustedException:Fai

Service Monitor java hadoop hbase cloudera cloudera-cdh cloudera-manager

13 14 151617 18 19