草庐IT

BeautifulSoup4

全部标签

python - 使用 BeautifulSoup 从文本中删除标签

这里有很多标题相似的问题,但我正在尝试从soup对象本身中删除标签。我有一个页面,其中包含这个div:IwanttokeepthisIwanttoremovethis我可以选择与soup.find('div',id='content')但我想删除从它。 最佳答案 您可以使用extract如果您想从树中删除标签或字符串。In[13]:soup=BeautifulSoup("""IwanttokeepthisIwanttoremovethis""")In[14]:soup=BeautifulSoup("""....:Iwanttokee

python - BeautifulSoup 只提取顶级标签

这个问题在这里已经有了答案:FindinganonrecursiveDOMsubnodeinPythonusingBeautifulSoup(1个回答)关闭6年前。我正在使用Python3.4中的BeautifulSoup进行一些网页抓取。现在我在学习过程中遇到了一个问题:我正在尝试从网页中获取表格行,我正在使用find_all()来获取它们,但在表格内部-有更多表格,其中包含表格行!我怎样才能仅获取BeautifulSoup中标签的顶级/第一级一般或特定元素?#Retrievesalltherow('tr')tagsintablemy_table.find_all('tr')顺便说一

python - BeautifulSoup 只提取顶级标签

这个问题在这里已经有了答案:FindinganonrecursiveDOMsubnodeinPythonusingBeautifulSoup(1个回答)关闭6年前。我正在使用Python3.4中的BeautifulSoup进行一些网页抓取。现在我在学习过程中遇到了一个问题:我正在尝试从网页中获取表格行,我正在使用find_all()来获取它们,但在表格内部-有更多表格,其中包含表格行!我怎样才能仅获取BeautifulSoup中标签的顶级/第一级一般或特定元素?#Retrievesalltherow('tr')tagsintablemy_table.find_all('tr')顺便说一

python - 检查 BeautifulSoup 3 中的元素类型

如何检查Tag元素是否属于特定类型,例如BS3中的div? 最佳答案 您正在寻找tagname:ifelement.name=='div':演示:>>>frombs4importBeautifulSoup>>>soup=BeautifulSoup('')>>>printsoup.find('div').namediv此属性在BeautifulSoup3和4之间没有变化。我强烈建议您使用BeautifulSoup4;BS3上的所有开发都已停止,该版本的最后一个版本是2年多前。 关于pyth

python - 检查 BeautifulSoup 3 中的元素类型

如何检查Tag元素是否属于特定类型,例如BS3中的div? 最佳答案 您正在寻找tagname:ifelement.name=='div':演示:>>>frombs4importBeautifulSoup>>>soup=BeautifulSoup('')>>>printsoup.find('div').namediv此属性在BeautifulSoup3和4之间没有变化。我强烈建议您使用BeautifulSoup4;BS3上的所有开发都已停止,该版本的最后一个版本是2年多前。 关于pyth

Python:BeautifulSoup UnboundLocalError

我正在尝试从一些.txt格式的文档中删除HTML标签。但是,据我所知,bs4似乎有错误。我收到的错误如下:Traceback(mostrecentcalllast):File"E:/GoogleDrive1/Thesisstuff/Python/database/get_missing_10ks.py",line13,intext=BeautifulSoup(file_read,"html.parser")File"C:\Users\AdrianPC\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init_

Python:BeautifulSoup UnboundLocalError

我正在尝试从一些.txt格式的文档中删除HTML标签。但是,据我所知,bs4似乎有错误。我收到的错误如下:Traceback(mostrecentcalllast):File"E:/GoogleDrive1/Thesisstuff/Python/database/get_missing_10ks.py",line13,intext=BeautifulSoup(file_read,"html.parser")File"C:\Users\AdrianPC\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init_

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用BeautifulSoup解析DOM树并提取作者姓名。下面是一段HTML,用于显示我要抓取的代码的结构。Authors:DachengLin,RonaldA.Remillard,JeroenHomanAuthors:A.G.Kosovichev我感到困惑的一点是,当我执行soup.find时,它找到了我正在搜索的div标记的第一个匹配项。之后,我搜索所有“a”链接标签。在此阶段,如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用BeautifulSoup或我需要使用Regex?我如何继续遍历所有其他div标签并提取作者姓名?importreimporturllib

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用BeautifulSoup解析DOM树并提取作者姓名。下面是一段HTML,用于显示我要抓取的代码的结构。Authors:DachengLin,RonaldA.Remillard,JeroenHomanAuthors:A.G.Kosovichev我感到困惑的一点是,当我执行soup.find时,它找到了我正在搜索的div标记的第一个匹配项。之后,我搜索所有“a”链接标签。在此阶段,如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用BeautifulSoup或我需要使用Regex?我如何继续遍历所有其他div标签并提取作者姓名?importreimporturllib

python - 通过标签自定义 BeautifulSoup 的 prettify

我想知道是否有可能使prettify不在特定标签上创建新行。我想让span和a标签不会分开,例如:doc="""ablinklink1link2"""frombs4importBeautifulSoupasBSsoup=BS(doc)printsoup.prettify()下面是我要打印的内容:ablinklink1link2但这才是实际打印的内容:ablinklink1link2在新行上放置内联样式标签实际上会增加它们之间的空间,稍微改变实际页面的外观。我会将您链接到两个显示差异的jsfiddles:anchortagsonnewlinesanchortagsnexttoeachot