performing

performance - 这个 Hadoop -Mapreduce 工作信息是什么意思？

我在1MB数据上运行了Hadoop-Mapreducejobwordcount程序。我对理解以下信息有些疑问:什么是计数器？为什么maptasks是两个，因为我知道map的数量取决于输入分割的数量，输入分割的最小大小是64MB。所以逻辑上应该只有一个Map任务!？reducer的输出数据大小是多少？CPU时间花费，哪个CPU导致每个tasktracker都有自己的CPU和内存？非常感谢![user1@li417-43~]$hadoopjarwordcount1.jarwordcount1.WordCount-Dmapred.reduce.tasks=10wordinwordout10-

sql - 配置单元 : How to perform JOIN Operation with GROUP BY

我有两个表A-->id,nameB-->id,value在B表中，我有多个重复的id，我想找到特定id的平均值并打印id，name，AVG(value)这是我在表B中查找平均值的查询SELECTid,AVG(value)FROMBGROUPBYid;我需要执行JOIN操作，如何使用GROUPBY执行JOIN操作。最佳答案这就是你想要的:你想按id和name分组SELECTa.id,a.name,avg(b.value)FROMAJOINBONA.id=B.idGROUPBYA.id,A.name

配置单 Operation section code id sql hadoop hive

performance - 优化 hadoop 集群上的 nutch 性能

我正在尝试优化抓取网站的nutch性能。现在我在小型hadoop集群上测试性能，只有两个节点32gbRAM，cpuIntelXeonE31245v24c/8t。我的nutch配置http://pastebin.com/bBRHpFuq所以，问题是:获取工作不是最优的。一些reduce任务有4k页面用于获取，一些1kk页面。例如见截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成，但一个任务工作了11个小时并且仍在继续工作，所以当我有24个reduce任务但只工作一个时，

performance hadoop section noreferrer com nutch cloudera hadoop-yarn

performance - hive 查询中 where 条件的顺序是否会影响查询性能？

我的HiveSQL查询有时会导致全表扫描并持续很长时间。因此我想知道where语句的顺序是否真的会影响查询的性能。例如查询具有基于日期构建的主键和区分对象的辅助键。我想只分析昨天的数据，这应该比全表扫描快得多。查询1:SELECTprimarykey,COALESCE(SUM(param1),0L),COALESCE(SUM(param2),0L),param3FROMTableWHEREparam1="abc"ANDparam2>0ANDprimarykey=yesterdaysdateGROUPBYparam3;查询2:SELECTprimarykey,COALESCE(SUM(p

performance where param section primarykey hadoop hive hiveql

performance - Apache Spark 分布式环境调优

我会在分布式环境中最大限度地提高Hadoop性能(使用ApacheSpark和Yarn)并且我正在遵循blogpostofCloudera上的提示使用此配置:6nodes,16core/node,ram64G/node建议的解决方案是:--num-executors17--executor-cores5--executor-memory19G但我不明白为什么他们使用17个num执行器(换句话说每个节点3个执行器)。我们的配置是:8nodes,8core/node,ram8G/node什么是最好的解决方案？最佳答案你的内存很低。我

performance Apache section code executor hadoop apache-spark hadoop-yarn

performance - 有没有办法通过 Hadoop 集群进行分布式文件下载？

我想为机器学习项目下载大量数据文件。这些下载需要很长时间，我想加快速度。我有一个Hadoop集群，我想我可以利用它来加快下载速度。有没有办法通过集群分发文件下载来提高速度？最佳答案如果您有文件列表和可用的sparkcontext，您只需执行sparkContext.parallelize(fileList).foreach(downloadMethod(_))它会自动将下载任务分配给执行者。关于performance-有没有办法通过Hadoop集群进行分布式文件下载？，我们在Sta

performance Hadoop section 长时 stackoverflow apache-spark download cluster-computing

performance - pig 性能问题

我有以下PIG脚本，它花费大量时间来处理342个文件，分割大小为256MB(仅测试)。任何人都可以提出改进建议:SPLITfilteredalnumcdrsintosplitalnumcdrs_1IF((SUBSTRING(aparty,2,3)=='-')),splitalnumcdrs_2OTHERWISE;tmpsplitalnumcdrs_1=FOREACHsplitalnumcdrs_1GENERATEaparty,srcgt,destgt,SUBSTRING(aparty,0,2)assplitaparty,bparty,smscgt,status,prepost;grou

performance pig tmpsplitalnumcdrs aparty splitaparty hadoop apache-pig bigdata

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止，我们有大约52GB的输入文件，但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误，然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

performance Mapreduce Text public String hadoop

performance - Tableau 受限 Data Extract 连接速度慢

我在Tableau中设计可视化，我的数据在Hive/hadoop中，数据量很大，当我尝试设计可视化时，查询运行非常非常慢，因为每次它尝试从hadoop中提取数据。所以对于任何可视化，简单的拖放通常需要4分钟，而可视化可能需要10秒的拖放，所以我最终要花很多时间等待。我尝试使用数据提取选项，但是它永远需要数据提取(38分钟并且仍在继续)问题:有没有办法我只能提取1000条记录，这样我就可以处理这1000条记录来创建可视化，然后在设计完成后切换到实时连接。我试图查看画面社区的帮助，但到目前为止没有运气最佳答案复制XL中的所有数据并将

受限 performance section 中设仪表板 hadoop tableau-api data-extraction

performance - 处理大输入时 Spark 性能非常慢

我正在使用Spark(在Scala中)读取一个包含用户和他们共享的页面列表的文件，我想通过他们共享的页面找到与给定用户一定距离的所有用户。程序运行很差，我经常得到GCoverheadlimitexceeded错误。我在具有8GB内存的MacOSX上本地运行Spark。使用spark-submit提交程序带参数--driver-memory5g和通过设置分配的8个核心spark.cores.max.输入集是一个1.15GB的文件。有没有人指出哪个操作效率很低，是否有更好的替代操作？提前致谢。此处简要介绍了代码。每个用户条目都包含他/她在标签后共享的页面，每个条目由两个换行符分隔，如下所示

入时 performance code reduceByKey line scala hadoop apache-spark

53 54 555657 58 59