草庐IT

beautifulSoup

全部标签

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用BeautifulSoup解析DOM树并提取作者姓名。下面是一段HTML,用于显示我要抓取的代码的结构。Authors:DachengLin,RonaldA.Remillard,JeroenHomanAuthors:A.G.Kosovichev我感到困惑的一点是,当我执行soup.find时,它找到了我正在搜索的div标记的第一个匹配项。之后,我搜索所有“a”链接标签。在此阶段,如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用BeautifulSoup或我需要使用Regex?我如何继续遍历所有其他div标签并提取作者姓名?importreimporturllib

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用BeautifulSoup解析DOM树并提取作者姓名。下面是一段HTML,用于显示我要抓取的代码的结构。Authors:DachengLin,RonaldA.Remillard,JeroenHomanAuthors:A.G.Kosovichev我感到困惑的一点是,当我执行soup.find时,它找到了我正在搜索的div标记的第一个匹配项。之后,我搜索所有“a”链接标签。在此阶段,如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用BeautifulSoup或我需要使用Regex?我如何继续遍历所有其他div标签并提取作者姓名?importreimporturllib

python - 通过标签自定义 BeautifulSoup 的 prettify

我想知道是否有可能使prettify不在特定标签上创建新行。我想让span和a标签不会分开,例如:doc="""ablinklink1link2"""frombs4importBeautifulSoupasBSsoup=BS(doc)printsoup.prettify()下面是我要打印的内容:ablinklink1link2但这才是实际打印的内容:ablinklink1link2在新行上放置内联样式标签实际上会增加它们之间的空间,稍微改变实际页面的外观。我会将您链接到两个显示差异的jsfiddles:anchortagsonnewlinesanchortagsnexttoeachot

python - 通过标签自定义 BeautifulSoup 的 prettify

我想知道是否有可能使prettify不在特定标签上创建新行。我想让span和a标签不会分开,例如:doc="""ablinklink1link2"""frombs4importBeautifulSoupasBSsoup=BS(doc)printsoup.prettify()下面是我要打印的内容:ablinklink1link2但这才是实际打印的内容:ablinklink1link2在新行上放置内联样式标签实际上会增加它们之间的空间,稍微改变实际页面的外观。我会将您链接到两个显示差异的jsfiddles:anchortagsonnewlinesanchortagsnexttoeachot

python - BS4 : Getting text in tag

我用的是美汤。有这样一个标签:s.r.o.,small我想获取anchor内的文本只有标签,没有来自的任何标签输出中的标签;即“s.r.o.,”我试过了find('li').text[0]但它不起作用。BS4中有没有可以做到这一点的命令? 最佳答案 一个选择是从contents中获取第一个元素a元素的:>>>frombs4importBeautifulSoup>>>data='s.r.o.,small'>>>soup=BeautifulSoup(data)>>>printsoup.find('a').contents[0]s.r.o

python - BS4 : Getting text in tag

我用的是美汤。有这样一个标签:s.r.o.,small我想获取anchor内的文本只有标签,没有来自的任何标签输出中的标签;即“s.r.o.,”我试过了find('li').text[0]但它不起作用。BS4中有没有可以做到这一点的命令? 最佳答案 一个选择是从contents中获取第一个元素a元素的:>>>frombs4importBeautifulSoup>>>data='s.r.o.,small'>>>soup=BeautifulSoup(data)>>>printsoup.find('a').contents[0]s.r.o

python - 如何让 Beautiful Soup 输出 HTML 实体?

我正在尝试对来自客户端的一些HTML输入进行清理和XSS防护。我正在使用Python2.6和BeautifulSoup。我解析输入,去除所有不在白名单中的标签和属性,然后将树转换回字符串。然而...>>>unicode(BeautifulSoup('text在我看来,这不像是有效的HTML。使用我的标签剥离器,它为各种肮脏的事情开辟了道路:>>>printBeautifulSoup('script>alert("xss")script>').prettify()script>alert("xss")script>对将被删除,剩下的不仅是XSS攻击,甚至还有有效的HTML。显而易见的解决

python - 如何让 Beautiful Soup 输出 HTML 实体?

我正在尝试对来自客户端的一些HTML输入进行清理和XSS防护。我正在使用Python2.6和BeautifulSoup。我解析输入,去除所有不在白名单中的标签和属性,然后将树转换回字符串。然而...>>>unicode(BeautifulSoup('text在我看来,这不像是有效的HTML。使用我的标签剥离器,它为各种肮脏的事情开辟了道路:>>>printBeautifulSoup('script>alert("xss")script>').prettify()script>alert("xss")script>对将被删除,剩下的不仅是XSS攻击,甚至还有有效的HTML。显而易见的解决

python - 使用 python 从 javascript 标记中解析变量数据

我正在使用BeautifulSoup和Requests抓取一些网站。我正在检查的一页的数据位于中标签。它看起来像这样:varpage_data={"default_sku":"SKU12345","get_together":{"imageLargeURL":"http://null.null/pictures/large.jpg","URL":"http://null.null/index.tmpl","name":"Paints","description":"Hereisadescriptionanditworksprettywell","canFavorite":1,"id":

python - 使用 python 从 javascript 标记中解析变量数据

我正在使用BeautifulSoup和Requests抓取一些网站。我正在检查的一页的数据位于中标签。它看起来像这样:varpage_data={"default_sku":"SKU12345","get_together":{"imageLargeURL":"http://null.null/pictures/large.jpg","URL":"http://null.null/index.tmpl","name":"Paints","description":"Hereisadescriptionanditworksprettywell","canFavorite":1,"id":