草庐IT

go - 为用户可以编辑的页面(例如维基百科/stackoverflow 页面)设计数据存储架构

想法是设计一个表/实体,其中包含一些基本信息,以及一个Markdown-Content字段,允许用户轻松创建表等。我是这样想的:typeTournamentstruct{IDin64`datastore:"-"`MDContent[]byte`datastore:",noindex"`NamestringURLstringDateCreatedint64CreatedBystringDateUpdatedint64UpdatedBystringApprovalStatusint64//0=tobedecided,1=approved,2=rejected,3=discontinuedA

xml - 将维基百科转储加载到 Elasticsearch

我想加载一个XML维基百科转储,例如:http://ftp.acc.umu.se/mirror/wikimedia.org/dumps/enwiki/20171001/enwiki-20171001-pages-articles.xml.bz2进入Elasticsearch(5.6.4)。但是,我找到的所有工具和教程都已过时,并且与我的Elasticsearch版本不兼容。谁能解释将转储导入Elasticsearch的最佳方法是什么? 最佳答案 两年前,维基媒体提供了生产Elasticsearch索引的可用转储。索引每周导出一次,每

python - 使用 Python 的维基百科

我有这个非常简单的python代码来读取维基百科api的xml:importurllibfromxml.domimportminidomusock=urllib.urlopen("http://en.wikipedia.org/w/api.php?action=query&titles=Fractal&prop=links&pllimit=500")xmldoc=minidom.parse(usock)usock.close()printxmldoc.toxml()但此代码返回这些错误:Traceback(mostrecentcalllast):File"/home/user/work

python - 从 MediaWiki 的 API 维基文本中提取 Python 中的模板参数

有没有办法从MediaWikia的API中提取部分文本?例如,此链接将所有内容转储为XML格式:http://marvel.wikia.com/api.php?action=query&prop=revisions&titles=All-New%20X-Men%20Vol%201%201&rvprop=content&format=xml但是它没有太多的结构,即使是json格式。我想获取Writer1_1、Penciler1_1等的文本。也许我的参数不正确,所以也许还有其他选择输出。您可以以更易读的方式查看内容here. 最佳答案

xml - 用 R 抓取维基百科来制作列表和数据框

我想抓取Vancouverolympicgames维基百科词条。不幸的是,它不是一个很好的表格格式。我正在尝试创建一个包含2列的数据框:Nation和numberofathletes。此时我有library(XML)library(RCurl)path国家在哪里>country[1]"\nAfriqueduSud(2)\nAlbanie(1)\nAlgérie(1)\nAllemagne(153)\nAndorre(6)\nArgentine(7)\nArménie(4)\nAustralie(41)\nAutriche(82)\nAzerbaïdjan(2)\nBelgique(8)

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象,然后将它发送到我的ArticleSink,后者生成Lucene文档。我想过滤特殊/元页面,例如那些以Category:为前缀的页面或Wikipedia:,所以我制作了这些前缀的数组,并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中,一切正常,我得到了一个Lucene索引,其中包含除匹配前缀之外的所有页面。在法语中,不带重音的前缀也有效(即过滤相应的页面),一些带重音的前缀根本不起作用(

python - 从维基数据 API 获取 python 中的项目标签

我正在尝试使用维基数据API创建一个包含所有哈利波特角色名称的列表。我想从下面的链接中获取项目标签(字符名称)到我的Python笔记本中。这是按照我的意愿运行的维基数据查询服务查询。importrequestsimportjsonhpCharURL="https://query.wikidata.org/sparql?query=SELECTDISTINCT?item?itemLabelWHERE{{?itemwdt:P31?sub1.?sub1(wdt:P279|wdt:P131)*wd:Q95074.?itemwdt:P1080?sub2.?sub2(wdt:P279|wdt:P1

html - 如何使用 MediaWiki::DumpFile 将维基百科 XML 转储转换为 HTML?

在页面MediaWiki::DumpFile存在以下代码:useMediaWiki::DumpFile;$mw=MediaWiki::DumpFile->new;$sql=$mw->sql($filename);$sql=$mw->sql(\*FH);$pages=$mw->pages($filename);$pages=$mw->pages(\*FH);$fastpages=$mw->fastpages($filename);$fastpages=$mw->fastpages(\*FH);useMediaWiki::DumpFile::Compat;$pmwd=Parse::Medi

java - 是否有在 Java 中解析维基百科 xml 转储文件的解决方案?

我正在尝试解析这个巨大的25GBPlus维基百科XML文件。任何有帮助的解决方案将不胜感激。最好是Java解决方案。 最佳答案 用于解析维基百科XML转储的JavaAPI:WikiXMLJ(最后一次更新是在2010年11月)。另外,还有活着的mirror与Maven兼容,并修复了一些错误。 关于java-是否有在Java中解析维基百科xml转储文件的解决方案?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

我想将wikipedia索引到elasticsearch。我试过stream2es+elasticsearch2.0.0和WikipediaRiver插件2.6.0+elasticsearch1.6.0索引最新的维基百科转储https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2.但是两者都得到了相同的错误信息:XMLdocumentstructuresmuststartandendwithinthesameentity. 最佳