草庐IT

perform_test

全部标签

hadoop - Oozie 简单 ssh 作业失败 : AUTH_FAILED: Not able to perform operation

我正在尝试使用Clouderaoozie进行简单的ssh作业。job.properties:nameNode=hdfs://localhost:8020jobTracker=localhost:8032queueName=defaultexamplesRoot=examplesoozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/sshworkflow.xml:localhostdateSSHactionfailed,errormessage[${wf:errorMessage(wf:l

performance - Hadoop - CPU 密集型应用程序 - 小数据

Hadoop是否适合处理CPU密集型作业并需要处理大约500MB的小文件的作业?我读到过Hadoop旨在处理所谓的大数据,我想知道它如何处理少量数据(但CPU密集型工作负载)。我主要想知道是否存在针对这种情况的更好方法,或者我应该坚持使用Hadoop。 最佳答案 Hadoop是一个提出MapReduce引擎的分布式计算框架。如果您可以使用此范例(或Hadoop模块支持的任何其他范例)来表达您的可并行cpu密集型应用程序,则您可以利用Hadoop。Hadoop计算的一个经典示例是Pi的计算,它不需要任何输入数据。正如您将看到的here

performance - Hadoop 集群 - 集群的正常形式和安全形式之间的性能差异

普通Hadoop集群和配置了Kerberos和SSL的安全Hadoop集群在性能上会有差异吗?考虑到两种类型的集群的机器配置相同,完成一项工作所需的时间是否不同?如果是,我们是否有关于时差的任何已知时间指标?喜欢,普通集群-1.5小时安全集群-2.5小时 最佳答案 是的。由于Kerberos和SSL,所有API调用都会产生开销。作业完成时间会有所不同,但如果不知道API在作业中被调用了多少次,就无法知道这是多少时间。一般来说,影响很小,但由于您正在将另一个网络组件引入您的工作流程(KDC),您可能会遇到显着的性能下降取决于您的集群有

hadoop - pig : Perform task on completion of UDF

在Hadoop中,我有一个看起来像这样的Reducer,用于将数据从先前的映射器转换为一系列非InputFormat兼容类型的文件。protectedvoidsetup(Contextcontext){LocalDatabaseld=newLocalDatabase("localFilePath");}protectedvoidreduce(BytesWritablekey,Textvalue,Contextcontext){ld.addValue(key,value)}protectedvoidcleanup(Contextcontext){saveLocalDatabaseInHD

performance - Spark 本地 vs hdfs 性能

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3GB的文本文件。我有一个简单的字数统计pyspark程序。如果我提交从本地文件系统读取文件的程序,它会持续大约33秒。如果我提交从hdfs读取文件的程序,它会持续大约46秒。为什么?我期望完全相反的结果。根据sgvd的要求添加:16从1主没有特殊设置的SparkStandalone(复制因子3)版本1.5.2importsyssys.path.insert(0,'/usr/local/spark/python/')sys.path.insert(0,'/usr/l

performance - HBase:为什么在达到 BlockCache 的最大大小之前会有被逐出的 block ?

我目前使用的是ApacheHBase的库存配置,其中RegionServer堆为4G,BlockCache大小为40%,因此约为1.6G。未配置L2/BucketCache。这是向RegionServer发出约2K次请求后的BlockCache指标。如您所见,已经有block被逐出,可能导致了一些未命中。为什么他们在我们甚至没有接近限制时就被驱逐了?Size2.1M当前正在使用的block缓存大小(字节)Free1.5G当前可用于存储更多缓存条目的总空闲内存(字节)Count18block缓存中的block数Evicted14被驱逐的block总数驱逐1,645发生驱逐的总次数平均10

performance - 提高配置单元jdbc的性能

有谁知道如何提高HIVEJDBC连接的性能。详细问题:当我从HiveCLI查询配置单元时,我会在7秒内得到响应,但从HIVEJDBC连接中我会在14秒后得到响应。我想知道是否有任何方法(配置更改)可以提高通过JDBC连接进行查询的性能。提前致谢。 最佳答案 使用连接池帮助我提高了配置单元JDBC的性能。在Hive中,当我们查询时会发生许多转换,因此使用连接池中的现有连接对象而不是打开新连接并为每个请求关闭是非常有帮助的。如果遇到相同问题的其他人会发布详细答案,请告诉我。 关于perfor

java - 如何使用MRUnit Test做Mapper测试?

我是Hadoop新手。我想使用MRUnitTest单独测试我的映射器部分。我已经尝试了很多。但我不知道如何解决以下错误-“MapDriver类型中的方法setMapper(Mapper)不适用于参数(Recommand.IdIndexMapper)”。我正在使用Hadoop-1.2.1、EclipseJuno、mrunit-1.0.0-hadoop1.jar、junit-4.11、mockito-all-1.9.5.jar。下面是我的代码,我的映射器类:类名:推荐,publicstaticclassIdIndexMapperextendsMapReduceBaseimplementsM

前端开发中的单元测试(unit testing)和端到端测试(end-to-end testing)

聚沙成塔·每天进步一点点⭐专栏简介前端入门之旅:探索Web开发的奇妙世界欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发者,这里都将为你提供一个系统而又亲切的学习平台。在这个专栏中,我们将以问答形式每天更新,为大家呈现精选的前端知识点和常见问题解答。通过问答形式,我们希望能够更直接地回应读者们对于前端技术方面的疑问,并且帮助大家逐步建立起一个扎实的基础。无论是HTML、CSS、JavaScript还是各种常用框架和工具,我们将深入浅出地解释概念,并提供实际案例和练习来巩固所学内容。同时

performance - 在 Hadoop mapreduce 作业中重用 JVM

我知道我们可以设置属性“mapred.job.reuse.jvm.num.tasks”来重新使用JVM。我的问题是:(1)如何决定这里要设置的任务个数,-1还是其他一些正整数?(2)在mapreduce作业中重用JVM并将此属性设置为-1的值是个好主意吗?非常感谢! 最佳答案 如果您有非常小的任务,这些任务肯定会在彼此之后运行,将此属性设置为-1很有用(意味着生成的JVM将被无限次重复使用)。因此,您只需生成(集群中可供您的作业使用的任务数)-JVM,而不是(任务数)-JVM。这是一个巨大的性能改进。在长时间运行的作业中,与设置新J