百科全书

python - 使用 Python 的维基百科

我有这个非常简单的python代码来读取维基百科api的xml:importurllibfromxml.domimportminidomusock=urllib.urlopen("http://en.wikipedia.org/w/api.php?action=query&titles=Fractal&prop=links&pllimit=500")xmldoc=minidom.parse(usock)usock.close()printxmldoc.toxml()但此代码返回这些错误:Traceback(mostrecentcalllast):File"/home/user/work

维基百科 section code amp python xml wikipedia

xml - 用 R 抓取维基百科来制作列表和数据框

我想抓取Vancouverolympicgames维基百科词条。不幸的是，它不是一个很好的表格格式。我正在尝试创建一个包含2列的数据框:Nation和numberofathletes。此时我有library(XML)library(RCurl)path国家在哪里>country[1]"\nAfriqueduSud(2)\nAlbanie(1)\nAlgérie(1)\nAllemagne(153)\nAndorre(6)\nArgentine(7)\nArménie(4)\nAustralie(41)\nAutriche(82)\nAzerbaïdjan(2)\nBelgique(8)

维基和数 34 country code xml r web-scraping wikipedia

python - 从维基百科转储中提取平行文本

在我的研究项目中，我需要从维基百科转储中提取平行文档。换句话说，我已经下载了英语和意大利语维基百科转储。现在，我想解析它们，对于英语转储中的每篇文章，在意大利语转储中找到它的翻译(应该由Interlanguage链接完成)，并将它们存储在同一个文件中，以便之后进行一些跨语言文本处理。我为此进行了一些搜索，但找不到用于此目的的任何代码。但是，由于我看过很多论文的作者都做了同样的事情，所以我认为在从头开始发明轮子之前可能值得先问一问。任何想法都会受到赞赏。谢谢。最佳答案使用此维基百科API，action=query&query=la

取平从维 section 意大利语利语 python xml xml-parsing wikipedia

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象，然后将它发送到我的ArticleSink，后者生成Lucene文档。我想过滤特殊/元页面，例如那些以Category:为前缀的页面或Wikipedia:，所以我制作了这些前缀的数组，并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中，一切正常，我得到了一个Lucene索引，其中包含除匹配前缀之外的所有页面。在法语中，不带重音的前缀也有效(即过滤相应的页面)，一些带重音的前缀根本不起作用(

维基百科 code 34 section java xml character-encoding

html - 如何使用 MediaWiki::DumpFile 将维基百科 XML 转储转换为 HTML？

在页面MediaWiki::DumpFile存在以下代码:useMediaWiki::DumpFile;$mw=MediaWiki::DumpFile->new;$sql=$mw->sql($filename);$sql=$mw->sql(\*FH);$pages=$mw->pages($filename);$pages=$mw->pages(\*FH);$fastpages=$mw->fastpages($filename);$fastpages=$mw->fastpages(\*FH);useMediaWiki::DumpFile::Compat;$pmwd=Parse::Medi

维基 MediaWiki DumpFile code html xml perl cpan wikitext

r - 无法从维基百科中抓取表格

我无法理解thisquestion的选定答案.我要抓取的表格是thislistofU.S.statepopulations.library(XML)theurl这是我遇到的错误..Error:failedtoloadexternalentity"http://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population"什么给了？(注意-尽管我正在寻求解决此错误，但如果您能指出一种更简单的获取人口数据的方法，我将不胜感激。) 最佳答案您的代码没有任何

从维百科 states_and_territories_by_populat territories section r xml web-scraping

《抽象代数极简教程》全书目录 / By 禅与计算机程序设计艺术&ChatGPT

抽象代数极简教程——By禅与计算机程序设计艺术&ChatGPT第一章代数系统1.1集合的基本概念1.2二元运算1.3代数系统的定义1.4例子：整数集合的代数系统第二章群论2.1群的定义2.2群的基本性质2.3群的例子2.4子群2.5商群2.6同态与同构第三章环论3.1环的定义3.2环的基本性质3.3环的例子3.4理想3.5商环3.6同态与同构第四章域论4.1域的定义4.2域的基本性质4.3域的例子4.4扩域4.5代数闭域第五章线性代数5.1向量空间5.2线性变换5.3特征值与特征向量5.4矩阵的相似与对角化第六章Galois理论6.1Galois扩张6.2Galois群6.3主定理第七章抽象代

设计艺术 amp h3 基本性 h2 算法机器学习人工智能抽象代数线性代数

java - 是否有在 Java 中解析维基百科 xml 转储文件的解决方案？

我正在尝试解析这个巨大的25GBPlus维基百科XML文件。任何有帮助的解决方案将不胜感激。最好是Java解决方案。最佳答案用于解析维基百科XML转储的JavaAPI:WikiXMLJ(最后一次更新是在2010年11月)。另外，还有活着的mirror与Maven兼容，并修复了一些错误。关于java-是否有在Java中解析维基百科xml转储文件的解决方案？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

维基百科 section noreferrer java xml parsing

json - 如何从维基百科页面获取表格数据？

是否有人知道如何使用WikipediaAPI从特定维基百科页面的表格中获取JSON或XML数据？是否有其他方法可以做到这一点？例如从这里https://en.wikipedia.org/wiki/List_of_action_films_of_the_2010s 最佳答案您可以使用curl(或使用任何其他方法/工具)通过公共(public)API检索和/或解析Wikipedia-URL。以下是两个应该对您有所帮助的示例:List_of_action_films_of_the_2010s的检索:JSONunparsed通过query

从维百科 code section List_of_action_films_of_the json xml wikipedia-api

xml - 将维基百科转储索引到 elasticsearch 获取 XML 文档结构必须在同一实体错误中开始和结束

我想将wikipedia索引到elasticsearch。我试过stream2es+elasticsearch2.0.0和WikipediaRiver插件2.6.0+elasticsearch1.6.0索引最新的维基百科转储https://dumps.wikimedia.org/enwiki/20151102/enwiki-20151102-pages-articles-multistream.xml.bz2.但是两者都得到了相同的错误信息:XMLdocumentstructuresmuststartandendwithinthesameentity. 最佳

维基 elasticsearch cirrussearch enwiki 20151116 xml wikipedia

123 4 5