emp_performance

performance - 我如何评估我的 spark 应用程序

你好我刚刚创建了我的第一个spark应用程序，现在我可以访问一个集群(12个节点，每个节点有2个处理器Intel(R)Xeon(R)CPUE5-26502.00GHz，每个处理器有8个内核)，我想知道帮助我调整应用程序和观察其性能的标准是什么。我已经访问过spark的官方网站，它在谈论数据序列化，但我无法确切地了解它是什么或如何指定它。它也在谈论“内存管理”、“并行级别”，但我不明白如何控制这些。还有一件事，我知道数据的大小有影响，但我拥有的所有files.csv文件的大小都很小，我怎样才能获得大文件(10GB、20GB、30GB、50GB,100GB,300GB,500GB)请尽量为

performance - "time spent by map task"在 Hadoop 上包括什么？

Hadoop作业成功后，会显示各种计数器的摘要，请参见下面的示例。我的问题是Totaltimespentbyallmaptasks计数器中包含什么，特别是在映射器作业不是节点本地的情况下，是否包含数据复制时间？17/01/2509:06:12INFOmapreduce.Job:Counters:49FileSystemCountersFILE:Numberofbytesread=2941FILE:Numberofbyteswritten=241959FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE:N

performance amp code Number Total hadoop mapreduce

java - HBase读取: To improve on performance ,如何使用hbase java REST api批量处理get请求

我是HBaseRESTAPI的新手，我正在尝试寻找一种方法，我可以通过get命令获得一组Id的结果。由于批处理有助于提高我的代码的性能，而不是为表的每个ID发出获取请求。一些示例Hbasejavarestapi代码会有所帮助。提前致谢。最佳答案 Result[]results=table.get(Listgets)做你正在寻找的。您应该会看到显着的性能改进。如果你只想知道键是否存在:boolean[]exists=exists(Listgets);它甚至可以比get更快，因为它只返回true或false。

java performance section code stackoverflow hadoop hbase batch-processing

performance - 从数据库中导出数据并写入HDFS(hadoop fs)

现在我正在尝试从数据库表中导出数据，并将其写入hdfs。问题是:名称节点会成为瓶颈吗？机制如何，名称节点会缓存一个切片(64MB)，然后将其提供给数据节点？有没有比编写hdfs更好的方法？因为我认为它没有利用并行机制。谢谢:) 最佳答案您是否考虑过使用Sqoop。Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS。http://www.cloudera.com/blog/2009/06/introducing-sqoop/Sqoopimport命令获取要运行的map作业的数量(默认为1)。此外，在并行化工作(映

中导 performance section Sqoop hadoop hdfs

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件，HDFS和HBASE中哪一个花费的处理时间更少？还有更少的内存消耗？最佳答案这是一个高层次的问题。缺少有关数据类型的信息。但是，一般而言，我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件，将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确，则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小，请引用SplitsizevsBlocksize

performance millions section HDFS size hadoop hbase

performance - htable在java api中放置和获取超时

是否可以在使用javaAPI获取和放置时指定超时(默认行为似乎永远阻塞......特别是当我们的hbase速度慢且负载很重时) 最佳答案尝试通过这个线程comments.gmane.org/gmane.comp.java.hadoop.hbase.user/23290–ankitKinra 关于performance-htable在javaapi中放置和获取超时，我们在StackOverflow上找到一个类似的问题： https://stackoverflo

中放 performance section stackoverflow questions hadoop nosql hbase

performance - Hadoop 版本 1 与版本 2 性能对比

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我计划从Hadoop版本1更新到Hadoop版本2。谁能告诉我(如果您尝试过hadoop版本2)，版本2中的MR/Hive/Pig作业与版本1相比是否有任何性能改进？

performance Hadoop section class notice bigdata

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

对于客户，我一直在研究在AWSEC2上运行Cloudera风格的hadoop集群的短期可行性。在大多数情况下，结果是预期的，逻辑卷的性能大多不可靠，也就是说尽我所能让集群在这种情况下运行得相当好。昨晚我对他们的导入程序脚本进行了全面测试，以从指定的HDFS路径中提取数据并将其推送到Hbase。他们的数据有些不同寻常，因为记录小于1KB，并且被压缩到9MB的gzipblock中。总共有大约50万条文本记录从gzip中提取出来，经过完整性检查，然后推送到reducer阶段。作业在环境的预期范围内运行(溢出记录的数量是我预料到的)但是一个非常奇怪的问题是当作业运行时，它使用8个reducer

performance mapreduce reducer section 的 configuration hadoop hbase

performance - Spark 最近 30 天过滤器，提高性能的最佳方法

我有一个记录的RDD，转换为DataFrame，我想按天时间戳过滤并计算最近30天的统计数据，按列过滤并计算结果。Spark应用程序在进入for循环之前非常快，所以我想知道这是否是一种反模式方法，我怎样才能获得良好的性能，我应该使用spark笛卡尔坐标吗？//FILTERPROJECTRECORDSvalclientRecordsDF=recordsDF.filter($"rowkey".contains(""+client_id))client_records_total=clientRecordsDF.count().toLong这是clientRecordsDF的内容root|-

performance Spark Calendar section 20160613 scala hadoop apache-spark statistics

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下，复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链，执行引擎将复制设置为5是否更好？什么是最好的和最坏的值(value)？这对聚合、连接和仅限map的作业有何好处？最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量，则可以保证每台机器都能够处理该数据。但是，正如您提到的，namenode开销非常重要，更多的文件或副本会导致请求缓慢。在不健康的集群中，更多的副本也会使您的网络饱和。我从未见过高于5的数据，而

apache-spark replication section 的 stackoverflow hadoop mapreduce hdfs distributed-computing

56 57 585960 61 62