beautifulSoup

python - 使用 python urllib2 发送 POST 请求并获得响应

我正在尝试通过发送POST请求取回HTML页面:importhttplibimporturllibimporturllib2fromBeautifulSoupimportBeautifulSoupheaders={'Host':'digitalvita.pitt.edu','Connection':'keep-alive','Content-Length':'325','Origin':'https://digitalvita.pitt.edu','User-Agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_7_4)AppleWebKit/537.

python urllib2 39 gt section post request beautifulsoup

Python 使用 Selenium 和 Beautiful Soup 抓取 JavaScript

我正在尝试使用BS和Selenium抓取启用JavaScript的页面。到目前为止，我有以下代码。它仍然没有以某种方式检测到JavaScript(并返回空值)。在这种情况下，我试图在底部抓取Facebook评论。(检查元素将类显示为postText)感谢您的帮助!fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimportBeautifulSoupbrowser=webdrive

JavaScript Beautiful section browser import python selenium screen-scraping beautifulsoup

python - 使用 BeautifulSoup 排除不需要的 findAll 结果

使用BeautifulSoup，我的目标是抓取与此HTML钩子(Hook)关联的文本:所以，使用如下简单的代码，content=page.read()soup=BeautifulSoup(content)results=soup.find_all("p","review_comment")我很乐意解析这里的文本:Thisplaceisterrible!坏消息是每30次左右soup.find_all得到一个匹配，它也匹配并抓取一些我真的不想要的东西，这是一个用户的旧评论，他们已经更新了:It's1999,andIwillalwayslovethisplace…Readmore»

BeautifulSoup findAll code 34 class python screen-scraping

python - BeautifulSoup - 提取属性值

如果BeautifulSoup给我一个这样的anchor标签:如何检索href属性的值？最佳答案如果您已经有了anchor，请像这样获取href属性:href=anchor["href"] 关于python-BeautifulSoup-提取属性值，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1684120/

BeautifulSoup python section code href

python - 查找带有 beautifulsoup 的特定链接

您好，我一直无法弄清楚如何找到以特定文本开头的链接。findall('a')工作正常，但它太多了。我只想列出所有以http://www.nhl.com/ice/boxscore.htm?id=谁能帮帮我？非常感谢最佳答案首先设置一个测试文档并用BeautifulSoup打开解析器:>>>fromBeautifulSoupimportBeautifulSoup>>>doc='yepsomelinkanother'>>>soup=BeautifulSoup(doc)>>>printsoup.prettify()yepsomelink

beautifulsoup python gt lt boxscore regex

python - 无法导入 Beautiful Soup

我正在尝试使用BeautifulSoup，尽管使用了import语句:从bs4导入BeautifulSoup我收到错误:ImportError:cannotimportnameBeautifulSoupimportbs4没有给出任何错误。我也试过importbs4.BeautifulSoup并只导入bs4并创建一个BeautifulSoup对象:bs4.BeautifulSoup()如有任何指导，我们将不胜感激。最佳答案问题是我将文件命名为HTMLParser.py，并且该名称已在bs4模块中的某处使用。感谢所有提供帮助的人!

Beautiful python code section BeautifulSoup

python - Beautifulsoup:解析html——获取href的一部分

我正在尝试解析76561198134729239对于76561198134729239。我不知道该怎么做。我尝试了什么:importrequestsfromlxmlimporthtmlfrombs4importBeautifulSoupr=requests.get("http://ppm.rep.tf/index.php?p=banlist&page=154")content=r.contentsoup=BeautifulSoup(content,"html.parser")element=soup.find("td",{"class":"listtable_1","target":"

mdash Beautifulsoup 34 section 76561198134729239 python web-scraping request

Python不会写入文件

我正在尝试将打印精美的电子邮件写入.txt文件，以便我可以更好地查看我想从中解析出的内容。这是我的代码的这一部分:result,data=mail.uid('search',None,"(FROM'tiffany@e.tiffany.com')")#searchandreturnuidsinsteadlatest_email_uid=data[0].split()[-1]result,data=mail.uid('fetch',latest_email_uid,'(RFC822)')raw_email=data[0][1]html=raw_emailsoup=BS(html)prett

Python 不会 email code section file parsing io beautifulsoup

python - 无法从一些不同深度的链接中解析产品名称

我用python编写了一个脚本以到达目标页面，其中每个类别在网站中都有其可用的项目名称。我下面的脚本可以从大多数链接中获取产品名称(通过流动类别链接和子类别链接生成)。该脚本可以解析单击位于每个类别旁边的+符号时显示的子类别链接，如下图所示，然后解析目标页面中的所有产品名称。Thisisoneofsuch目标页面。However,fewofthelinksdonothavethesamedepthasotherlinks.Forexamplethislinkandthisonearedifferentfromusuallinkslikethisone.如何从所有链接中获取所有产品名称，

产品名 python code 39 BeautifulSoup python-3.x web-scraping

python - 漂亮的汤从标签中获取标签(不是可导航字符串)的 child

Beautifulsoup文档提供属性.contents和.children来访问给定标签(分别是列表和可迭代对象)的子元素，并且包括可导航字符串和标签。我只想要Tag类型的child。我目前正在使用列表理解来完成此任务:rows=[xforxintable.tbody.childreniftype(x)==bs4.element.Tag]但我想知道是否有更好/更pythonic/内置的方法来获取标记子项。最佳答案感谢J.F.Sebastian，以下将起作用:rows=table.tbody.find_all(True,recu

可导 python 34 gt lt beautifulsoup tree-traversal

9 10 111213 14 15