草庐IT

xml - 将维基百科转储加载到 Elasticsearch

我想加载一个XML维基百科转储,例如:http://ftp.acc.umu.se/mirror/wikimedia.org/dumps/enwiki/20171001/enwiki-20171001-pages-articles.xml.bz2进入Elasticsearch(5.6.4)。但是,我找到的所有工具和教程都已过时,并且与我的Elasticsearch版本不兼容。谁能解释将转储导入Elasticsearch的最佳方法是什么? 最佳答案 两年前,维基媒体提供了生产Elasticsearch索引的可用转储。索引每周导出一次,每

python - 解析 Stackoverflow Posts.xml 数据转储文件使程序崩溃,给出 ascii 编码错误

我已经下载了Stackoverflow2013年6月的数据转储,现在正在解析XML文件并将其存储在MySQL数据库中。我正在使用PythonElementTree来执行此操作,但它一直崩溃并给我编码错误。解析代码片段:post=open('a.xml','r')a=post.read()tree=xml.parse((a).encode('ascii','ignore'))#Ialsotried.encode('utf-8').strip()itdoesn'twork#Gettherootnoderow=tree.findall("row")它给了我以下错误:'ascii'codecc

python - 从维基百科转储中提取平行文本

在我的研究项目中,我需要从维基百科转储中提取平行文档。换句话说,我已经下载了英语和意大利语维基百科转储。现在,我想解析它们,对于英语转储中的每篇文章,在意大利语转储中找到它的翻译(应该由Interlanguage链接完成),并将它们存储在同一个文件中,以便之后进行一些跨语言文本处理。我为此进行了一些搜索,但找不到用于此目的的任何代码。但是,由于我看过很多论文的作者都做了同样的事情,所以我认为在从头开始发明轮子之前可能值得先问一问。任何想法都会受到赞赏。谢谢。 最佳答案 使用此维基百科API,action=query&query=la

xml - Amazon s3 存储桶在访问索引时转储 XML 中的全部内容

所以发生了一些奇怪的事情,我已经为静态网站托管设置了我的AWSS3存储桶,并且一切正常,但是每当我进入普通域(例如:“test.com”)时,它都会返回一个XML文件错误,然后转储该XML中的所有内容。它看起来像this,但其余域(如“test.com/test”)确实有效。我将index.html设置为我存储桶中的索引,一切似乎都已正确配置。有帮助吗?此外,转到“test.com/index”确实可以正常显示索引,只有当您转到“test.com”时才会出现XML错误。 最佳答案 你有两个问题:您错误配置了存储桶ACL或策略以允许所

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象,然后将它发送到我的ArticleSink,后者生成Lucene文档。我想过滤特殊/元页面,例如那些以Category:为前缀的页面或Wikipedia:,所以我制作了这些前缀的数组,并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中,一切正常,我得到了一个Lucene索引,其中包含除匹配前缀之外的所有页面。在法语中,不带重音的前缀也有效(即过滤相应的页面),一些带重音的前缀根本不起作用(

html - 如何使用 MediaWiki::DumpFile 将维基百科 XML 转储转换为 HTML?

在页面MediaWiki::DumpFile存在以下代码:useMediaWiki::DumpFile;$mw=MediaWiki::DumpFile->new;$sql=$mw->sql($filename);$sql=$mw->sql(\*FH);$pages=$mw->pages($filename);$pages=$mw->pages(\*FH);$fastpages=$mw->fastpages($filename);$fastpages=$mw->fastpages(\*FH);useMediaWiki::DumpFile::Compat;$pmwd=Parse::Medi

sql - 是否有将数据库模式(SQL DDL)转储为 XML 的工具?

我希望从SQL(Postgres)DDL自动生成数据库模式的XML版本。是否有任何工具可以帮助从DDL转换为XML?xml2ddl声称这样做,但它无法连接并且自2005年以来似乎不受支持。 最佳答案 您可以使用内置的table_to_xmlschema等;见http://www.postgresql.org/docs/current/static/functions-xml.html#FUNCTIONS-XML-MAPPING. 关于sql-是否有将数据库模式(SQLDDL)转储为XML

java - 是否有在 Java 中解析维基百科 xml 转储文件的解决方案?

我正在尝试解析这个巨大的25GBPlus维基百科XML文件。任何有帮助的解决方案将不胜感激。最好是Java解决方案。 最佳答案 用于解析维基百科XML转储的JavaAPI:WikiXMLJ(最后一次更新是在2010年11月)。另外,还有活着的mirror与Maven兼容,并修复了一些错误。 关于java-是否有在Java中解析维基百科xml转储文件的解决方案?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.

xml - 解析 Wiki XML 转储 ver0.4 变得很困难

我正在尝试使用“Parse-MediaWikiDump-1.0.4”和“Wikiprep.pl”脚本来解析维基百科XML转储。我想这个脚本在ver0.3WikiXMLDumps上工作正常,但在最新的ver0.4Dumps上不工作。我收到以下错误。无法在wikiprep.pl第390行通过包“Parse::MediaWikiDump::Pages”找到对象方法“page”。此外,在“Parse-MediaWikiDump-1.0.4”文档下@http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaW

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

我想将wikipedia索引到elasticsearch。我试过stream2es+elasticsearch2.0.0和WikipediaRiver插件2.6.0+elasticsearch1.6.0索引最新的维基百科转储https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2.但是两者都得到了相同的错误信息:XMLdocumentstructuresmuststartandendwithinthesameentity. 最佳