草庐IT

performance - Hadoop 是否适合为 50GB 数据集中的 100 字节记录提供服务?

我们有一个问题,Hadoop是否适合不需要运行应用程序但需要非常快速地读取和写入少量数据的简单任务。要求是能够以每秒30次的速度写入带有几个索引的大约100-200字节长的消息,同时能够以大约每秒10次的速度读取(通过这两个索引进行搜索)秒。读取查询必须非常快-每个查询最多100-200毫秒并返回少量匹配记录。总数据量预计将达到50-100GB,并通过删除较旧的记录来维持此速度(类似于删除超过14天的记录的日常任务)如您所见,总数据量并没有那么大,但我们担心Hadoop的搜索速度无论如何都可能比我们需要的慢。Hadoop是解决这个问题的方法吗?谢谢尼克 最佳

java.lang.NumberFormatException : For input string: "100" while executing MapReduce 异常

我正在编写一个MapReduce作业,用于在facebook上寻找共同的friend。这是我的映射器的输入:100,200300400500600200,100300400300,100200400500400,100200300500,100300600,100这是我的映射器代码的一部分:map{Stringline=value.toString();String[]LineSplits=line.split(",");String[]friends=LineSplits[1].trim().split("");for(inti=0;i当我执行此操作时,我在friend2中获得了正确

hadoop - 我不明白 CapacityScheduler 中的 "The sum of capacities for all queues, at each level, must be equal to 100"

在http://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html,我看见了yarn.scheduler.capacity..capacity:Queuecapacityinpercentage(%)asafloat(e.g.12.5).Thesumofcapacitiesforallqueues,ateachlevel,mustbeequalto100.Applicationsinthequeuemayconsumemoreresourcesthanthequeue'sca

php - 阅读前 100 行

请看下面的代码:wcmapper.php(hadoop流作业的映射器)#!/usr/bin/php$count){//tab-delimitedecho"$word\t$count\n";}?>wcreducer.php(样本hadoop作业的reducer脚本)#!/usr/bin/php0)$word2count[$word]+=$count;}ksort($word2count);//sortthewordsalphabetically//writetheresultstoSTDOUT(standardoutput)foreach($word2countas$word=>$cou

hadoop - 如何在 hive 中获取 100K 用户的随机样本及其所有交易?

我有一个庞大的数据集,其中包含数百万用户的信息以及他们1年的购买记录。有没有办法从这些数据中创建100K用户的随机样本(保留他们所有的个人购买)?由于一个用户可以进行多次购买,因此样本将包含超过10万条记录。我能够找到rand()函数,但它没有为我提供用户的所有记录。我试过这个查询:select*frommytablewhererand()此结果仅生成10万个随机记录,而不是这10万个用户的所有记录。关于如何编写配置单元查询以获得此结果有什么建议吗? 最佳答案 您应该首先创建包含100,000个随机用户ID的表:CREATEtabl

mysql - 我应该使用哪种技术来处理每 30 秒 100 万 * 100 万次计算

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我开发了一个GPS应用程序,其中所有设备(在路上移动)每30秒将其坐标发送到服务器。现在我必须计算这些设备之间的距离,所以如果任何设备进入另一个设备的范围内,那么两个设备都会收到通知。我知道如何计算两个坐标之间的距离(感谢Google),但我不确定如何实现它;如果我们有100万台设备同时向服务器发送数据,那么服务器需要每30秒执行100万*(100万-1)次距离计算。请告诉我如何实现它。我是否需要使用Ha

linux - DFS Used% : 100. 00% 从属虚拟机在 Hadoop 中关闭

我的从属虚拟机出现故障,我猜这是因为使用的DFS是100%。你能给出一个系统的方法来解决这个问题吗?是防火墙问题吗?容量问题或可能导致它的原因以及如何解决?ubuntu@anmol-vm1-new:~$hadoopdfsadmin-reportDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.15/12/1322:25:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplat

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群遇到了一个非常奇怪的问题。每当我尝试将任何大于100MB(104857600字节)的文件加载到HDFS时,它都会失败并出现以下错误:Alldatanodesarebad...Aborting.这真的很奇怪,因为100MB已成为文件大小的阈值。即使我尝试将文件大小增加1个字节(104857601字节),并尝试将其加载到HDFS中,它也会失败并显示一个长堆栈跟踪。主要是说“所有数据节点都坏了......正在中止”有没有人之前遇到过类似的情况?是否有可能是错误的配置更改导致了这种行为?如果是,是否有任何限制我可以更改的可摄取数据大小的配置?谢谢 最佳答案

hadoop - 如何通过命令行在 hdfs 中查找大小大于 100MB 的所有文件?

如何通过命令行在hdfs中找到所有大小大于100MB的文件? 最佳答案 你可以试试这个:hadoopfsfind/-typef-size100-print\ 关于hadoop-如何通过命令行在hdfs中查找大小大于100MB的所有文件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/34129962/

hadoop - SparkR 作业 100 分钟超时

我编写了一个有点复杂的sparkR脚本并使用spark-submit运行它。脚本基本上做的是逐行读取一个大的基于hive/impalaparquet的表并生成具有相同行数的新parquet文件。但似乎工作在大约100分钟后停止,这似乎有些超时。对于多达500K行的脚本,它可以完美运行(因为它需要不到100分钟)对于1、2、3或更多行,脚本在100分钟后退出。我检查了所有我知道并测试过的值在100分钟范围内的可能参数。但找不到任何解决方案。[user@localhostR]$timespark-submitsparkr-pre.RLoadingrequiredpackage:method