假设我有一组面向会计师的网站,如下所示:
http://www.johnvanderlyn.com
http://www.rubinassociatespa.com
http://www.taxestaxestaxes.com
http://janus-curran.com
http://ricksarassociates.com
http://www.condoaudits.com
http://www.krco-cpa.com
http://ci.boca-raton.fl.us
我想做的是抓取每一个并获取合作伙伴的姓名和电子邮件。我应该如何从高层次上解决这个问题?
假设我知道如何实际抓取每个站点(和所有子页面)并解析 HTML 元素——我是 using Oga .
我正在努力解决的问题是如何理解以多种方式呈现的数据。例如,可以通过以下方式之一找到公司(和/或合作伙伴)的电子邮件地址:
或者它可以是任何其他方式。
我考虑处理电子邮件的一种方法是搜索所有 mailto a 标签并从那里过滤。
这样做的明显缺点是不能保证电子邮件是发给合作伙伴而不是其他员工的。
另一个更明显的问题是仅从标记中检测合作伙伴名称。我最初以为我可以只提取其中的所有 header 标签和文本,但我偶然发现了一些在 span 标签中包含合作伙伴名称的网站。
我知道 SO 通常用于特定的编程问题,但我不确定如何解决这个问题以及在哪里提出这个问题。还有其他 StackExchange 站点更适合这个问题吗?
如果您能给我任何关于具体方向的建议,那就太好了。
最佳答案
我查看了 http://ricksarassociates.com/网站,我根本找不到任何合作伙伴,所以在我看来,如果不是你最好寻找其他发明,你最好从中获益。
我不时做过类似的数据抓取,在挪威我们有法律——或者我应该说“法律”——你不能给别人发邮件,但是你可以给公司发邮件——所以在某种程度上换个角度看同样的问题。
我希望我能牢记数学和算法,因为我确信人工智能和机器学习中隐藏着一个迷人的解决方案,但在我看来,我能看到的唯一解决方案是构建一个规则集,随着时间的推移可能会变得非常复杂.也许您可以应用一些贝叶斯过滤 - 它对电子邮件非常有效。
但是 - 在这里提高一点生产力。我知道的一件事并不重要,您可以从创建爬虫环境和构建数据集开始。拥有 URLS 数据库,这样您就可以随时添加更多内容,并开始对您已有的内容进行爬网,以便您使用 100% 的副本查询自己的数据进行测试。这将为您节省大量时间,而不是一边调整一边实时抓取。
几年前我做了自己的搜索引擎,抓取了所有 NO 域,但当时我只需要索引文件。花了一个多星期的时间才把它抓下来,我认为仅仅那个文件就有 8GB 的数据,而且由于大量 DNS 流量的问题,我不得不使用多个代理服务器来使其工作。很多问题需要被照顾。我想我只是在说 - 如果你正在大规模爬行,如果你想稍后高效地进行解析,你也可以开始获取数据。
祝你好运,如果你得到解决方案,请发帖。我认为没有算法或人工智能是不可能的——人们按照他们喜欢的方式设计网站,他们从他们的屁股里拿出模板,所以没有规则可循。您最终会得到错误的数据。
你有这方面的资金吗?如果是这样就更简单了。然后你就可以抓取每个站点,并为每个站点制作一个配置文件。您可以雇用便宜的人来手动检查已解析的数据并删除所有错误。这可能是大多数人的做法,除非有人已经这样做了,并且数据库是出售的/可从 webservice 获得,所以它可以被抓取。
关于html - 如果我有一组随机网站,我如何从每个网站获取特定信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39861781/
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack