草庐IT

performing

全部标签

performance - 这个 Hadoop -Mapreduce 工作信息是什么意思?

我在1MB数据上运行了Hadoop-Mapreducejobwordcount程序。我对理解以下信息有些疑问:什么是计数器?为什么maptasks是两个,因为我知道map的数量取决于输入分割的数量,输入分割的最小大小是64MB。所以逻辑上应该只有一个Map任务!?reducer的输出数据大小是多少?CPU时间花费,哪个CPU导致每个tasktracker都有自己的CPU和内存?非常感谢![user1@li417-43~]$hadoopjarwordcount1.jarwordcount1.WordCount-Dmapred.reduce.tasks=10wordinwordout10-

sql - 配置单元 : How to perform JOIN Operation with GROUP BY

我有两个表A-->id,nameB-->id,value在B表中,我有多个重复的id,我想找到特定id的平均值并打印id,name,AVG(value)这是我在表B中查找平均值的查询SELECTid,AVG(value)FROMBGROUPBYid;我需要执行JOIN操作,如何使用GROUPBY执行JOIN操作。 最佳答案 这就是你想要的:你想按id和name分组SELECTa.id,a.name,avg(b.value)FROMAJOINBONA.id=B.idGROUPBYA.id,A.name

performance - 优化 hadoop 集群上的 nutch 性能

我正在尝试优化抓取网站的nutch性能。现在我在小型hadoop集群上测试性能,只有两个节点32gbRAM,cpuIntelXeonE31245v24c/8t。我的nutch配置http://pastebin.com/bBRHpFuq所以,问题是:获取工作不是最优的。一些reduce任务有4k页面用于获取,一些1kk页面。例如见截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成,但一个任务工作了11个小时并且仍在继续工作,所以当我有24个reduce任务但只工作一个时,

performance - hive 查询中 where 条件的顺序是否会影响查询性能?

我的HiveSQL查询有时会导致全表扫描并持续很长时间。因此我想知道where语句的顺序是否真的会影响查询的性能。例如查询具有基于日期构建的主键和区分对象的辅助键。我想只分析昨天的数据,这应该比全表扫描快得多。查询1:SELECTprimarykey,COALESCE(SUM(param1),0L),COALESCE(SUM(param2),0L),param3FROMTableWHEREparam1="abc"ANDparam2>0ANDprimarykey=yesterdaysdateGROUPBYparam3;查询2:SELECTprimarykey,COALESCE(SUM(p

performance - Apache Spark 分布式环境调优

我会在分布式环境中最大限度地提高Hadoop性能(使用ApacheSpark和Yarn)并且我正在遵循blogpostofCloudera上的提示使用此配置:6nodes,16core/node,ram64G/node建议的解决方案是:--num-executors17--executor-cores5--executor-memory19G但我不明白为什么他们使用17个num执行器(换句话说每个节点3个执行器)。我们的配置是:8nodes,8core/node,ram8G/node什么是最好的解决方案? 最佳答案 你的内存很低。我

performance - 有没有办法通过 Hadoop 集群进行分布式文件下载?

我想为机器学习项目下载大量数据文件。这些下载需要很长时间,我想加快速度。我有一个Hadoop集群,我想我可以利用它来加快下载速度。有没有办法通过集群分发文件下载来提高速度? 最佳答案 如果您有文件列表和可用的sparkcontext,您只需执行sparkContext.parallelize(fileList).foreach(downloadMethod(_))它会自动将下载任务分配给执行者。 关于performance-有没有办法通过Hadoop集群进行分布式文件下载?,我们在Sta

performance - pig 性能问题

我有以下PIG脚本,它花费大量时间来处理342个文件,分割大小为256MB(仅测试)。任何人都可以提出改进建议:SPLITfilteredalnumcdrsintosplitalnumcdrs_1IF((SUBSTRING(aparty,2,3)=='-')),splitalnumcdrs_2OTHERWISE;tmpsplitalnumcdrs_1=FOREACHsplitalnumcdrs_1GENERATEaparty,srcgt,destgt,SUBSTRING(aparty,0,2)assplitaparty,bparty,smscgt,status,prepost;grou

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止,我们有大约52GB的输入文件,但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误,然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

performance - Tableau 受限 Data Extract 连接速度慢

我在Tableau中设计可视化,我的数据在Hive/hadoop中,数据量很大,当我尝试设计可视化时,查询运行非常非常慢,因为每次它尝试从hadoop中提取数据。所以对于任何可视化,简单的拖放通常需要4分钟,而可视化可能需要10秒的拖放,所以我最终要花很多时间等待。我尝试使用数据提取选项,但是它永远需要数据提取(38分钟并且仍在继续)问题:有没有办法我只能提取1000条记录,这样我就可以处理这1000条记录来创建可视化,然后在设计完成后切换到实时连接。我试图查看画面社区的帮助,但到目前为止没有运气 最佳答案 复制XL中的所有数据并将

performance - 处理大输入时 Spark 性能非常慢

我正在使用Spark(在Scala中)读取一个包含用户和他们共享的页面列表的文件,我想通过他们共享的页面找到与给定用户一定距离的所有用户。程序运行很差,我经常得到GCoverheadlimitexceeded错误。我在具有8GB内存的MacOSX上本地运行Spark。使用spark-submit提交程序带参数--driver-memory5g和通过设置分配的8个核心spark.cores.max.输入集是一个1.15GB的文件。有没有人指出哪个操作效率很低,是否有更好的替代操作?提前致谢。此处简要介绍了代码。每个用户条目都包含他/她在标签后共享的页面,每个条目由两个换行符分隔,如下所示