核心已转储

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象，然后将它发送到我的ArticleSink，后者生成Lucene文档。我想过滤特殊/元页面，例如那些以Category:为前缀的页面或Wikipedia:，所以我制作了这些前缀的数组，并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中，一切正常，我得到了一个Lucene索引，其中包含除匹配前缀之外的所有页面。在法语中，不带重音的前缀也有效(即过滤相应的页面)，一些带重音的前缀根本不起作用(

维基百科 code 34 section java xml character-encoding

iphone - 从 iPhone 中的核心数据生成和解析 XML

我正在创建一个由几个UITableViewController组成的简单iOS应用程序。ViewController中显示的信息将来自xml文件(我将包含在项目的资源中或直接来自dropbox或iCloud)。xml文件的内容将基于用户输入。一些注意事项:数据是基于用户输入的，意味着不是静态的。理想情况下，应用程序会将数据从xml文件加载到“核心数据”中。该应用程序的每次额外运行只会从一些核心数据源(我还不完全熟悉)提取数据，而不是从文本文件重新加载它。现在我正在使用XMLwriter生成简单的xml文件请指导我谢谢最佳答案这里

iphone section attribute XML ios objective-c xml-parsing

xml - Xcode 中的核心数据导出和邮件

我创建了一个使用核心数据的应用程序，我想将核心数据导出到可以邮寄和/或同步到此应用程序的更高版本的表单中。你能告诉我吗1-哪种形式(XML、CSV、PDF...等)最适合从核心日期导出到？2-我需要从应用程序本身通过邮件发送文件，所以请记住这一点如果您能将我转移到youtube教程或Stackoverflow问题上，我将不胜感激，我可以在其中找到所需的代码。在此先感谢您的帮助最佳答案我一直在寻找完全相同的东西。我正在使用以下代码将数据导出到XML:https://github.com/skjolber/xswi/blob/wik

Xcode xml section https SerializingObjectsToXML email pdf core-data export

html - 如何使用 MediaWiki::DumpFile 将维基百科 XML 转储转换为 HTML？

在页面MediaWiki::DumpFile存在以下代码:useMediaWiki::DumpFile;$mw=MediaWiki::DumpFile->new;$sql=$mw->sql($filename);$sql=$mw->sql(\*FH);$pages=$mw->pages($filename);$pages=$mw->pages(\*FH);$fastpages=$mw->fastpages($filename);$fastpages=$mw->fastpages(\*FH);useMediaWiki::DumpFile::Compat;$pmwd=Parse::Medi

维基 MediaWiki DumpFile code html xml perl cpan wikitext

sql - 是否有将数据库模式(SQL DDL)转储为 XML 的工具？

我希望从SQL(Postgres)DDL自动生成数据库模式的XML版本。是否有任何工具可以帮助从DDL转换为XML？xml2ddl声称这样做，但它无法连接并且自2005年以来似乎不受支持。最佳答案您可以使用内置的table_to_xmlschema等；见http://www.postgresql.org/docs/current/static/functions-xml.html#FUNCTIONS-XML-MAPPING. 关于sql-是否有将数据库模式(SQLDDL)转储为XML

sql section noreferrer noopener xml database postgresql ddl

java - 是否有在 Java 中解析维基百科 xml 转储文件的解决方案？

我正在尝试解析这个巨大的25GBPlus维基百科XML文件。任何有帮助的解决方案将不胜感激。最好是Java解决方案。最佳答案用于解析维基百科XML转储的JavaAPI:WikiXMLJ(最后一次更新是在2010年11月)。另外，还有活着的mirror与Maven兼容，并修复了一些错误。关于java-是否有在Java中解析维基百科xml转储文件的解决方案？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

维基百科 section noreferrer java xml parsing

xml - 解析 Wiki XML 转储 ver0.4 变得很困难

我正在尝试使用“Parse-MediaWikiDump-1.0.4”和“Wikiprep.pl”脚本来解析维基百科XML转储。我想这个脚本在ver0.3WikiXMLDumps上工作正常，但在最新的ver0.4Dumps上不工作。我收到以下错误。无法在wikiprep.pl第390行通过包“Parse::MediaWikiDump::Pages”找到对象方法“page”。此外，在“Parse-MediaWikiDump-1.0.4”文档下@http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaW

Wiki ver0 MediaWikiDump Parse section xml perl parsing mediawiki wikipedia

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

我想将wikipedia索引到elasticsearch。我试过stream2es+elasticsearch2.0.0和WikipediaRiver插件2.6.0+elasticsearch1.6.0索引最新的维基百科转储https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2.但是两者都得到了相同的错误信息:XMLdocumentstructuresmuststartandendwithinthesameentity. 最佳

维基 elasticsearch cirrussearch enwiki 20151116 xml wikipedia

python - 如何在 Python 中拆分大型维基百科转储 .xml.bz2 文件？

我正在尝试使用Python使用维基媒体转储文件(.xml.bz2)构建离线维基词典。我从this开始文章作为指导。它涉及多种语言，我想将所有步骤合并为一个python项目。我已经找到了该过程所需的几乎所有库。现在唯一的难题是有效地将大型.xml.bz2文件拆分为多个较小的文件，以便在搜索操作期间更快地进行解析。我知道python中有bz2库，但它只提供压缩和解压操作。但我需要一些可以做类似bz2recover的东西从命令行执行，它将大文件分成许多较小的垃圾。更重要的一点是拆分不应该拆分以开头的页面内容结束在压缩后的xml文档中。是否有以前可用的库可以处理这种情况，或者代码必须从头开始编

维基何在 section bz2 python xml mediawiki

python - 将 elementtree 转储到 xml 文件中

我用这样的东西创建了一个xml树top=Element('top')child=SubElement(top,'child')child.text='sometext'如何将其转储到XML文件中？我尝试了top.write(filename)，但该方法不存在。最佳答案您需要实例化一个ElementTree反对并调用write()方法:importxml.etree.ElementTreeasETtop=ET.Element('top')child=ET.SubElement(top,'child')child.text='som

elementtree python code section child xml

4 5 678 9 10