beautifulSoup

python - 如何使用漂亮的汤和重新找到包含特定文本的特定类的跨度？

我如何找到所有具有'blue'类且包含格式文本的跨度:04/18/137:29pm因此可能是:04/18/137:29pm或:Postedon04/18/137:29pm就构建执行此操作的逻辑而言，这是我到目前为止所得到的:new_content=original_content.find_all('span',{'class':'blue'})#usingbeautifulsoup'sfind_allpattern=re.compile('[dataintheformat04/18/137:29pm]')#usingrefor_innew_content:result=re.find

跨度 python code span pre regex beautifulsoup

python - 使用 Python(或 R)提取谷歌学术搜索结果

我想使用python来抓取googlescholar搜索结果。我找到了两个不同的脚本来做到这一点，一个是gscholar.py另一个是scholar.py(那个可以用作python库吗？)。现在，我或许应该说我是Python的新手，如果我错过了显而易见的内容，我深表歉意!问题是当我按照README文件中的说明使用gscholar.py时，结果是query()至少需要2个参数(给定1个)。即使我指定了另一个参数(例如gscholar.query("myquery",allresults=True)，我也会得到query()至少需要2个参数(给定2个)。这让我很困惑。我还尝试指定第三个可能

学术 python code section BeautifulSoup r google-scholar

python - 带有身份验证的 urllib.request.urlopen(url)

这几天一直在玩美汤和解析网页。我一直在使用一行代码，它是我编写的所有脚本中的救星。代码行是:r=requests.get('some_url',auth=('my_username','my_password')).但是...我想用(打开一个带有身份验证的URL)做同样的事情:(1)sauce=urllib.request.urlopen(url).read()(1)(2)soup=bs.BeautifulSoup(sauce,"html.parser")(2)我无法打开url并读取需要身份验证的网页。我如何实现这样的目标:(3)sauce=urllib.request.urlopen

request urlopen code section python python-3.x url beautifulsoup

python - Beautiful Soup Unicode 编码错误

我正在尝试使用特定的HTML文件编写以下代码fromBeautifulSoupimportBeautifulSoupimportreimportcodecsimportsysf=open('test1.html')html=f.read()soup=BeautifulSoup(html)body=soup.body.contentspara=soup.findAll('p')printstr(para).encode('utf-8')我收到以下错误:UnicodeEncodeError:'ascii'codeccan'tencodecharacteru'\u2019'inpositio

Beautiful Unicode code section 39 python beautifulsoup

c# - BeautifulSoup 类似于 C#

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭9年前。C#有没有类似BeautifulSoup的库？我想简单地解析HTML和XML，特别是有错误的HTML。

c#section notice code python beautifulsoup

python - 抓取内部框架 HTML

我有一个Python脚本可以抓取src的属性html页面中的元素。使用浏览器检查器查看thispage的视频，我可以看到我需要抓取的视频元素，但直接查看页面源代码只会显示ember应用程序JavaScript文件。我需要做什么才能访问包含的“内部框架”标记元素，这样我就可以抓取src属性？经过编辑，所以它不是那么宽泛最佳答案无需走完整的浏览器/selenium路线。只要多做一点调查，您就会看到它是如何工作的:对于vineURLhttps://vine.co/v/i3pQ70vK3iv，您需要描述视频的json文件。如此简单地抓取

python HTML 34 code section beautifulsoup

python - 使用 BeautifulSoup 和 Python 从 HTML 文件中提取数据

我需要从HTML文件中提取数据。有问题的文件很可能是自动生成的。我已将其中一个文件的代码上传到Pastebin:http://pastebin.com/9Nj2Edfv.这是实际页面的链接:http://eur-lex.europa.eu/Notice.do?checktexts=checkbox&val=60504%3Acs&pos=1&page=1&lang=en&pgs=10&nbl=1&list=60504%3Acs%2C&hwords=&action=GO&visu=%23texte我需要提取的数据位于不同的标题下。这是我目前所拥有的:fromBeautifulSoupimp

BeautifulSoup python code amp procedure

python - 从存储的 .html 页面中提取新闻文章内容

我正在阅读html文件中的文本并进行一些分析。这些.html文件是新闻文章。代码:html=open(filepath,'r').read()raw=nltk.clean_html(html)raw.unidecode(item.decode('utf8'))现在我只想要文章内容而不是广告、标题等文本的其余部分。我怎样才能在python中相对准确地做到这一点？我知道一些工具，比如Jsoup(一个javaapi)和bolier但我想在python中这样做。我可以使用bs4找到一些技巧但仅限于一种类型的页面。我有来自众多来源的新闻页面。此外，缺少任何示例代码示例。我正在寻找与此完全相同的东

python html noreferrer section noopener urllib2 beautifulsoup

python - beautifulSoup html csv

晚上好，我使用BeautifulSoup从一个网站中提取了一些数据，如下所示:fromBeautifulSoupimportBeautifulSoupfromurllib2importurlopensoup=BeautifulSoup(urlopen('http://www.fsa.gov.uk/about/media/facts/fines/2002'))table=soup.findAll('table',attrs={"class":"table-horizontal-line"})printtable这给出了以下输出:[AmountCompanyorpersonfinedDat

beautifulSoup python gt lt td csv python-2.7

python - BeautifulSoup 和按类搜索

这个问题在这里已经有了答案:关闭11年前。PossibleDuplicate:BeautifulSoupcannotfindaCSSclassiftheobjecthasotherclasses,too我正在使用BeautifulSoup查找tables在HTML中。我目前遇到的问题是在class中使用空格属性。如果我的HTML显示为blah，我似乎无法通过以下方式提取它(我能够找到tables与wikipedia和wikipediasortable的class):BeautifulSoup(html).findAll(attrs={'class':re.compile("wikita

BeautifulSoup python code section class

10 11 121314 15 16