如果我有一个很大的 XML 文件,并且我想并行处理它。 “Hadoop 实践”使用 mahout XMLInputFormat,我发现 getSplits() 方法没有被覆盖。换句话说,它使用 TextInputFormat 的 getSplits() 方法。以及这种方法如何避免在begin-tag和end-tag的位置分割文件?
当我有这样一个 XML 文件时。两个映射器用于并行处理 XML 文件。
<persons>
<person>
<name>John</name>
<age>12</age>
</person>
. . . . . . .
<person>
------- until here as the first FileSplit
<name>Amy</name>
<age>14</age>
</person>
. . . . . . .
<person>
<name>Dan</name>
<age>12</age>
</person>
</persons> ------- remaining as the second FileSplit
当映射器进行第二次 FileSplit 时,它无法识别 Amy 记录,因为它找不到开始标记。
最佳答案
不确定是否理解问题。
XMLInputFormat 做的事情与 TextInputFormat 非常相似,但它不是在行尾拆分,而是使用 xmlinput.start 和 xmlinput.end 作为分隔符。这个类非常天真,不解析 XML 和任何复杂的东西,它只做愚蠢的模式匹配来找到记录边界。
实现有点像straightforward但你必须真正理解什么是拆分和记录。
拆分是文件的一部分,由开始和结束偏移量定义,将由映射器处理。它不需要与记录完全一致。这是一个粗粒度的事情,RecordReader 将处理“精确偏移”。例如,TextInputFormat 根据 mapred.max.split.size 计算拆分。它不会实际读取 文件。它仅根据此变量和文件大小进行非常简单的数学计算(可能比这复杂一点,例如由于压缩,但您明白了)。
记录是将作为
唯一要解决的问题是拆分的起始偏移量不能与记录的起始对齐。拆分结束时也是如此。这很容易解决,但算法很简单:记录读取器跳过起始偏移量之后的字节,直到找到第一个记录定界符,然后处理结束偏移量之后的字节,直到找到记录定界符。 这就是为什么您不需要重写 XMLInputFormat 中的 要配置 XMLInputFormat,您必须在配置中设置 getSplits 的原因。粗粒度拆分与“请将此文件拆分为 10MB 部分” 完全相同。 RecordReader 完成的细粒度拆分是“请从此拆分中提取每个 xmlinput.(start|end) 属性。
关于xml - hadoop中如何并行解析XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25485126/
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\