草庐IT

BeautifulSoup4

全部标签

python - 从大文件中剥离 html 比 BeautifulSoup 更快/更少的资源破坏方式?或者,使用 BeautifulSoup 的更好方法?

目前我无法输入这个,因为根据top,我的处理器是100%,我的内存是85.7%,都被python占用了。为什么?因为我让它通过一个250兆的文件来删除标记。250兆,就是这样!我一直在用python使用许多其他模块和东西来处理这些文件;BeautifulSoup是第一个给我带来如此小的问题的代码。如何将近4GB的RAM用于处理250兆的html?我发现(在stackoverflow上)并一直在使用的单行代码是这样的:''.join(BeautifulSoup(corpus).findAll(text=True))此外,这似乎删除了除标记之外的所有内容,这与我想要做的有点相反。我确信Be

python - BeautifulSoup 只查找属性包含子字符串的元素?这可能吗?

我在我的BeautifulSoup代码中调用了find_all()。这目前可以获取所有图像,但如果我只想定位在其src中具有“占位符”子字符串的图像,我该怎么做?fortinsoup.find_all('img'):#WHEREimg.href.contains("placeholder") 最佳答案 您可以passafunction在src关键字参数中:fortinsoup.find_all('img',src=lambdax:xand'placeholder'inx):或者,一个regularexpression:importr

python - BeautifulSoup 只查找属性包含子字符串的元素?这可能吗?

我在我的BeautifulSoup代码中调用了find_all()。这目前可以获取所有图像,但如果我只想定位在其src中具有“占位符”子字符串的图像,我该怎么做?fortinsoup.find_all('img'):#WHEREimg.href.contains("placeholder") 最佳答案 您可以passafunction在src关键字参数中:fortinsoup.find_all('img',src=lambdax:xand'placeholder'inx):或者,一个regularexpression:importr

python - 如何从 BeautifulSoup4 的 html 标签中找到特定的数据属性?

有没有办法只使用html中的data属性找到一个元素,然后获取该值?例如,在html文档中的这一行:如何通过在整个html文档中搜索具有data-bin属性的元素来检索Sdafdo39? 最佳答案 更准确一点[item['data-bin']foriteminbs.find_all('ul',attrs={'data-bin':True})]这样,迭代列表中只有具有您要查找的attr的ul元素frombs4importBeautifulSoupbs=BeautifulSoup(html_doc)html_doc="""foo"""[

python - 如何从 BeautifulSoup4 的 html 标签中找到特定的数据属性?

有没有办法只使用html中的data属性找到一个元素,然后获取该值?例如,在html文档中的这一行:如何通过在整个html文档中搜索具有data-bin属性的元素来检索Sdafdo39? 最佳答案 更准确一点[item['data-bin']foriteminbs.find_all('ul',attrs={'data-bin':True})]这样,迭代列表中只有具有您要查找的attr的ul元素frombs4importBeautifulSoupbs=BeautifulSoup(html_doc)html_doc="""foo"""[

python - <>在python中用beautifulsoup解析html时改为<和>

在使用Beautifulsoup处理html时,被转换为和>,由于taganchor都被转换了,所以整个soup失去了结构,有什么建议吗? 最佳答案 设置formatter=None可能会有所帮助(http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),但这可能表明您的HTML无效。如果这不起作用,您能否提供一些重现该问题的示例代码和HTML? 关于python-在python中用beautiful

python - <>在python中用beautifulsoup解析html时改为<和>

在使用Beautifulsoup处理html时,被转换为和>,由于taganchor都被转换了,所以整个soup失去了结构,有什么建议吗? 最佳答案 设置formatter=None可能会有所帮助(http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),但这可能表明您的HTML无效。如果这不起作用,您能否提供一些重现该问题的示例代码和HTML? 关于python-在python中用beautiful

python - beautifulsoup .get_text() 对我的 HTML 解析不够具体

鉴于下面的HTML代码,我只想输出h1的文本,而不是“关于”的详细信息,这是跨度的文本(由h1封装)。我当前的输出是:Detailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack我愿意:NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack这是我正在使用的HTMLDetailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlac

python - beautifulsoup .get_text() 对我的 HTML 解析不够具体

鉴于下面的HTML代码,我只想输出h1的文本,而不是“关于”的详细信息,这是跨度的文本(由h1封装)。我当前的输出是:Detailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack我愿意:NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack这是我正在使用的HTMLDetailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlac

python - 使用 BeautifulSoup 导航

我对如何使用BeautifulSoup导航HTML树有点困惑。importrequestsfrombs4importBeautifulSoupurl='http://examplewebsite.com'source=requests.get(url)content=source.contentsoup=BeautifulSoup(source.content,"html.parser")#NowInavigatethesoupforainsoup.findAll('a'):printa.get("href")有没有办法通过标签只找到特定的href?例如,我想要的所有href都由某个名