转储

xml - 将维基百科转储加载到 Elasticsearch

我想加载一个XML维基百科转储，例如:http://ftp.acc.umu.se/mirror/wikimedia.org/dumps/enwiki/20171001/enwiki-20171001-pages-articles.xml.bz2进入Elasticsearch(5.6.4)。但是，我找到的所有工具和教程都已过时，并且与我的Elasticsearch版本不兼容。谁能解释将转储导入Elasticsearch的最佳方法是什么？最佳答案两年前，维基媒体提供了生产Elasticsearch索引的可用转储。索引每周导出一次，每

维基 Elasticsearch 34 type text xml wikipedia

python - 解析 Stackoverflow Posts.xml 数据转储文件使程序崩溃，给出 ascii 编码错误

我已经下载了Stackoverflow2013年6月的数据转储，现在正在解析XML文件并将其存储在MySQL数据库中。我正在使用PythonElementTree来执行此操作，但它一直崩溃并给我编码错误。解析代码片段:post=open('a.xml','r')a=post.read()tree=xml.parse((a).encode('ascii','ignore'))#Ialsotried.encode('utf-8').strip()itdoesn'twork#Gettherootnoderow=tree.findall("row")它给了我以下错误:'ascii'codecc

Stackoverflow python amp gt 34 xml encoding elementtree

python - 从维基百科转储中提取平行文本

在我的研究项目中，我需要从维基百科转储中提取平行文档。换句话说，我已经下载了英语和意大利语维基百科转储。现在，我想解析它们，对于英语转储中的每篇文章，在意大利语转储中找到它的翻译(应该由Interlanguage链接完成)，并将它们存储在同一个文件中，以便之后进行一些跨语言文本处理。我为此进行了一些搜索，但找不到用于此目的的任何代码。但是，由于我看过很多论文的作者都做了同样的事情，所以我认为在从头开始发明轮子之前可能值得先问一问。任何想法都会受到赞赏。谢谢。最佳答案使用此维基百科API，action=query&query=la

取平从维 section 意大利语利语 python xml xml-parsing wikipedia

xml - Amazon s3 存储桶在访问索引时转储 XML 中的全部内容

所以发生了一些奇怪的事情，我已经为静态网站托管设置了我的AWSS3存储桶，并且一切正常，但是每当我进入普通域(例如:“test.com”)时，它都会返回一个XML文件错误，然后转储该XML中的所有内容。它看起来像this，但其余域(如“test.com/test”)确实有效。我将index.html设置为我存储桶中的索引，一切似乎都已正确配置。有帮助吗？此外，转到“test.com/index”确实可以正常显示索引，只有当您转到“test.com”时才会出现XML错误。最佳答案你有两个问题:您错误配置了存储桶ACL或策略以允许所

Amazon xml section com test amazon-web-services amazon-s3

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象，然后将它发送到我的ArticleSink，后者生成Lucene文档。我想过滤特殊/元页面，例如那些以Category:为前缀的页面或Wikipedia:，所以我制作了这些前缀的数组，并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中，一切正常，我得到了一个Lucene索引，其中包含除匹配前缀之外的所有页面。在法语中，不带重音的前缀也有效(即过滤相应的页面)，一些带重音的前缀根本不起作用(

维基百科 code 34 section java xml character-encoding

html - 如何使用 MediaWiki::DumpFile 将维基百科 XML 转储转换为 HTML？

在页面MediaWiki::DumpFile存在以下代码:useMediaWiki::DumpFile;$mw=MediaWiki::DumpFile->new;$sql=$mw->sql($filename);$sql=$mw->sql(\*FH);$pages=$mw->pages($filename);$pages=$mw->pages(\*FH);$fastpages=$mw->fastpages($filename);$fastpages=$mw->fastpages(\*FH);useMediaWiki::DumpFile::Compat;$pmwd=Parse::Medi

维基 MediaWiki DumpFile code html xml perl cpan wikitext

sql - 是否有将数据库模式(SQL DDL)转储为 XML 的工具？

我希望从SQL(Postgres)DDL自动生成数据库模式的XML版本。是否有任何工具可以帮助从DDL转换为XML？xml2ddl声称这样做，但它无法连接并且自2005年以来似乎不受支持。最佳答案您可以使用内置的table_to_xmlschema等；见http://www.postgresql.org/docs/current/static/functions-xml.html#FUNCTIONS-XML-MAPPING. 关于sql-是否有将数据库模式(SQLDDL)转储为XML

sql section noreferrer noopener xml database postgresql ddl

java - 是否有在 Java 中解析维基百科 xml 转储文件的解决方案？

我正在尝试解析这个巨大的25GBPlus维基百科XML文件。任何有帮助的解决方案将不胜感激。最好是Java解决方案。最佳答案用于解析维基百科XML转储的JavaAPI:WikiXMLJ(最后一次更新是在2010年11月)。另外，还有活着的mirror与Maven兼容，并修复了一些错误。关于java-是否有在Java中解析维基百科xml转储文件的解决方案？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

维基百科 section noreferrer java xml parsing

xml - 解析 Wiki XML 转储 ver0.4 变得很困难

我正在尝试使用“Parse-MediaWikiDump-1.0.4”和“Wikiprep.pl”脚本来解析维基百科XML转储。我想这个脚本在ver0.3WikiXMLDumps上工作正常，但在最新的ver0.4Dumps上不工作。我收到以下错误。无法在wikiprep.pl第390行通过包“Parse::MediaWikiDump::Pages”找到对象方法“page”。此外，在“Parse-MediaWikiDump-1.0.4”文档下@http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaW

Wiki ver0 MediaWikiDump Parse section xml perl parsing mediawiki wikipedia

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

我想将wikipedia索引到elasticsearch。我试过stream2es+elasticsearch2.0.0和WikipediaRiver插件2.6.0+elasticsearch1.6.0索引最新的维基百科转储https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2.但是两者都得到了相同的错误信息:XMLdocumentstructuresmuststartandendwithinthesameentity. 最佳

维基 elasticsearch cirrussearch enwiki 20151116 xml wikipedia

1 234 5 6