BeautifulSoup4

python - BeautifulSoup 获取特定列的所有值

我正在使用BeautifulSoup来解析html。到目前为止，我有以下代码:url="http://routerpasswords.com"data={"findpass":"1","router":"Belkin","findpassword":"FindPassword"}post_data=urllib.urlencode(data)req=urllib2.urlopen(url,post_data)html_str=req.read()parser=newBeautifulSoup(html_str)table=parser.find("table")有没有办法得到列下所有单

BeautifulSoup python gt lt td html python-2.7 html-parsing

python - BeautifulSoup/Python - 将 HTML 表格转换为 CSV 并获取一列的 href

我正在用这段代码抓取一个HTML表格:importcsvimporturllib2frombs4importBeautifulSoupwithopen('listing.csv','wb')asf:writer=csv.writer(f)foriinrange(39):url="file:///C:/projects/HTML/Export.htm".format(i)u=urllib2.urlopen(url)try:html=u.read()finally:u.close()soup=BeautifulSoup(html)fortrinsoup.find_all('tr')[2:]

BeautifulSoup python 39 code section html csv

python - BeautifulSoup/Python - 将 HTML 表格转换为 CSV 并获取一列的 href

我正在用这段代码抓取一个HTML表格:importcsvimporturllib2frombs4importBeautifulSoupwithopen('listing.csv','wb')asf:writer=csv.writer(f)foriinrange(39):url="file:///C:/projects/HTML/Export.htm".format(i)u=urllib2.urlopen(url)try:html=u.read()finally:u.close()soup=BeautifulSoup(html)fortrinsoup.find_all('tr')[2:]

BeautifulSoup python 39 code section html csv

python - 让 BeautifulSoup 像浏览器一样处理换行符

我正在使用BeautifulSoup(Python3.4版本“4.3.2”)将html文档转换为文本。我遇到的问题是，有时网页有换行符“\n”，实际上不会在浏览器中呈现为换行符，但是当BeautifulSoup将它们转换为文本时，它会留在“\n”中。例子:您的浏览器可能会在一行中呈现以下所有内容(即使中间有一个换行符):这是一个段。即使我输入时没有换行，您的浏览器也可能会在多行中呈现以下内容:这是一个段落。这是另一个段落。但是，当BeautifulSoup将相同的字符串转换为文本时，它使用的唯一换行符是换行符-它总是使用它们:frombs4importBeautifulSoupdoc=

换行符 BeautifulSoup paragraph python html line-breaks

python - 让 BeautifulSoup 像浏览器一样处理换行符

我正在使用BeautifulSoup(Python3.4版本“4.3.2”)将html文档转换为文本。我遇到的问题是，有时网页有换行符“\n”，实际上不会在浏览器中呈现为换行符，但是当BeautifulSoup将它们转换为文本时，它会留在“\n”中。例子:您的浏览器可能会在一行中呈现以下所有内容(即使中间有一个换行符):这是一个段。即使我输入时没有换行，您的浏览器也可能会在多行中呈现以下内容:这是一个段落。这是另一个段落。但是，当BeautifulSoup将相同的字符串转换为文本时，它使用的唯一换行符是换行符-它总是使用它们:frombs4importBeautifulSoupdoc=

换行符 BeautifulSoup paragraph python html line-breaks

python - BeautifulSoup:从 html 获取 css 类

有没有办法使用BeautifulSoup从HTML文件中获取CSS类？示例片段:p.c3{text-align:justify}p.c2{text-align:left}p.c1{text-align:center}完美的输出应该是:cssdict={'p.c3':{'text-align':'justify'},'p.c2':{'text-align':'left'},'p.c1':{'text-align':'center'}}虽然这样的事情会做:L=[('p.c3',{'text-align':'justify'}),('p.c2',{'text-align':'left'}),

BeautifulSoup python 39 text-align code html css

python - BeautifulSoup:从 html 获取 css 类

有没有办法使用BeautifulSoup从HTML文件中获取CSS类？示例片段:p.c3{text-align:justify}p.c2{text-align:left}p.c1{text-align:center}完美的输出应该是:cssdict={'p.c3':{'text-align':'justify'},'p.c2':{'text-align':'left'},'p.c1':{'text-align':'center'}}虽然这样的事情会做:L=[('p.c3',{'text-align':'justify'}),('p.c2',{'text-align':'left'}),

BeautifulSoup python 39 text-align code html css

python - 使用 BeautifulSoup 提取特定的 TD 表格元素文本？

我尝试使用BeautifulSoup库从自动生成的HTML表中提取IP地址，但我遇到了一点麻烦。HTML的结构如下:IPCountry127.0.0.1uk192.168.0.1us255.255.255.0br下面的小代码从两个td行中提取文本，但我只需要IP数据，而不需要IP和国家/地区数据:frombs4importBeautifulSoupsoup=BeautifulSoup(open("data.htm"))table=soup.find('table',{'class':'mainTable'})forrowintable.findAll("a"):print(row.te

BeautifulSoup python gt lt code html

python - 使用 BeautifulSoup 提取特定的 TD 表格元素文本？

我尝试使用BeautifulSoup库从自动生成的HTML表中提取IP地址，但我遇到了一点麻烦。HTML的结构如下:IPCountry127.0.0.1uk192.168.0.1us255.255.255.0br下面的小代码从两个td行中提取文本，但我只需要IP数据，而不需要IP和国家/地区数据:frombs4importBeautifulSoupsoup=BeautifulSoup(open("data.htm"))table=soup.find('table',{'class':'mainTable'})forrowintable.findAll("a"):print(row.te

BeautifulSoup python gt lt code html

python - 使用 BeautifulSoup 选择 HTML 中的 div block

我正在尝试使用来自网站的一些html使用BeautifulSoup解析几个divblock。但是，我不知道应该使用哪个函数来选择这些divblock。我尝试了以下方法:importurllib2frombs4importBeautifulSoupdefgetData():html=urllib2.urlopen("http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09-22",timeout=10).read().decode('UTF-8')soup=BeautifulSoup(html)print(soup.

BeautifulSoup python code section div html python-2.7 urllib2