草庐IT

BeautifulSoup4

全部标签

python - BeautifulSoup 对象不会 Pickle,导致解释器悄无声息地崩溃

我有汤来自BeautifulSoup我不能pickle。当我尝试pickle对象时,python解释器静默崩溃(这样它就不能作为异常处理)。我必须能够pickle对象才能使用multiprocessing返回对象包(pickle对象以在进程之间传递它们)。我如何解决/解决问题?不幸的是,我无法发布该页面的html(它不是公开的),而且我一直无法找到该问题的可重现示例。我试图通过遍历汤和pickle单个组件来隔离问题,产生错误的最小的东西是.当我打印它打印出的对象时u'\n'. 最佳答案 NavigableString类不能用mult

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码查找页面中所有有趣的链接:soup.findAll('a',href=re.compile('^notizia.php\?idn=\d+'))而且它的工作做得很好。不幸的是,在a标签内有很多嵌套标签,如font、b和不同的东西......我想得到只有文本内容,没有任何其他html标记。链接示例:03-11-2009:  CCSIngegneriaElettronica-Sportellostudentiedorientamento当然它很丑(而且标记并不总是相同的!)而且我想得到:03-11-2009:CCSIngegneriaElettronica

python - 使用 BeautifulSoup 发布到页面以登录

我正在使用python和beautifulsoup(两者都是新手!),我想登录供应商网站。所以他们的形式看起来像(简化):有没有办法跟踪cookie? 最佳答案 多读书。了解urllib2这就是您用来执行POST登录的内容。如果你知道名字,你不需要BeautifulSoup。http://docs.python.org/library/urllib2.htmlBeautifulSoup是您用来解析结果页面的工具。登录后。在您发布真实请求之后。 关于python-使用BeautifulSo

python - BeautifulSoup:剥离指定的属性,但保留标签及其内容

我正在尝试“defrontpagify”MSFrontPage生成的网站的html,我正在编写BeautifulSoup脚本来执行此操作。但是,我在尝试从包含它们的文档中的每个标记中删除特定属性(或列表属性)时遇到了困难。代码片段:REMOVE_ATTRIBUTES=['lang','language','onmouseover','onmouseout','script','style','font','dir','face','size','color','style','class','width','height','hspace','border','valign','ali

Python BeautifulSoup 提取特定的 URL

是否可以只获取特定的URL?喜欢:next...next...next...输出应该只是来自http://www.iwashere.com/的URL例如,输出URL:http://www.iwashere.com/washere.htmlhttp://www.iwashere.com/wasnot.html我是用字符串逻辑做的。BeautifulSoup有什么直接的方法吗? 最佳答案 您可以匹配多个方面,包括对属性值使用正则表达式:importresoup.find_all('a',href=re.compile('http://w

python - BeautifulSoup 查找包含特定单词的链接

我有这个链接:SantaClara,California我如何使用BeautifulSoup来具体查找包含位置“位置”一词的链接? 最佳答案 您可以使用简单的"contains"CSSselector来完成:soup.select("a[href*=location]")或者,如果只需要匹配一个链接,使用select_one():soup.select_one("a[href*=location]")当然,还有许多其他方式-例如,您可以使用find_all()提供可以有regularexpression的href参数值或functi

带有 "lxml"解析器的 Python BeautifulSoup 将长字符串分解为字符

这个问题在这里已经有了答案:BeautifulSoupreturnunexpectedextraspaces(3个答案)关闭3年前。我注意到Python[3.6.5]BeautifulSoup[4.6.0]与“lxml”[4.2.1]解析器处理长bytes对象与长字符串的方式之间存在奇怪的不一致。(显然,“long”是>16,384=2**14个字符或字节。)例如,我从麻省理工学院网站下载黑白棋的文本,并以原始(字节)形式和解码为字符串后的形式将其提供给BS。两个对象的长度相同,因为文档中没有多字节字符。frombs4importBeautifulSoupimporturlliburl

python - 防止 BeautifulSoup 将我的 XML 标签转换为小写

我正在使用BeautifulStoneSoup来解析XML文档并更改一些属性。我注意到它会自动将所有XML标记转换为小写。例如,我的源文件有BeautifulSoup转换为的元素.这似乎会引起问题,因为我将修改后的XML文档提供给的程序似乎不接受小写版本。有没有办法在BeautifulSoup中防止这种行为? 最佳答案 不,这不是内置选项。不过,来源非常简单。看起来您想更改Tag.__str__.中encodedName的值 关于python-防止BeautifulSoup将我的XML标

python - BeautifulSoup 导入错误

我正在尝试编写一个简单的本地python脚本来进行一些html解析。我安装了beautifulsoup4并使用导入了它frombs4importBeautifulSoup但是我得到了错误:Traceback(mostrecentcalllast):File"scrape_descriptions.py",line1,infrombs4importBeautifulSoupImportError:Nomodulenamed'bs4'我几乎尝试过以各种方式安装BS4。我先做了sudopipinstallBeautifulSoup4然后我尝试从网站下载实际文件并运行sudopythonset

python - 如何使用 BeautifulSoup 访问带命名空间的 XML 元素?

我有一个XML文档,内容如下:40000我的问题是如何使用python中的BeautifulSoup等库访问它们?xmlDom.web["Web"].总计?不起作用? 最佳答案 BeautifulSoup本身不是DOM库(它不实现DOMAPI)。使事情变得更复杂的是,您在该xml片段中使用了namespace。要解析特定的XML片段,您可以按如下方式使用BeautifulSoup:fromBeautifulSoupimportBeautifulSoupxml="""40000"""doc=BeautifulSoup(xml)prin