Webpage_草庐IT

linux - 在 Linux 服务器上保存完整网页的最佳方法是什么？

我需要在我的Linux服务器上存档完整的页面，包括任何链接图像等。寻找最佳解决方案。有没有办法保存所有Assets，然后将它们全部重新链接以在同一目录中工作？我考虑过使用curl，但我不确定如何做这一切。另外，我可能需要PHP-DOM吗？有没有办法在服务器上使用firefox并在加载地址或类似内容后复制临时文件？欢迎任何输入。编辑:似乎wget不会工作，因为需要渲染文件。我在服务器上安装了firefox，有没有办法在firefox中加载url，然后获取临时文件并在之后清除临时文件？最佳答案 wget可以做到这一点，例如:wget-

linux - 在 Linux 服务器上保存完整网页的最佳方法是什么？

我需要在我的Linux服务器上存档完整的页面，包括任何链接图像等。寻找最佳解决方案。有没有办法保存所有Assets，然后将它们全部重新链接以在同一目录中工作？我考虑过使用curl，但我不确定如何做这一切。另外，我可能需要PHP-DOM吗？有没有办法在服务器上使用firefox并在加载地址或类似内容后复制临时文件？欢迎任何输入。编辑:似乎wget不会工作，因为需要渲染文件。我在服务器上安装了firefox，有没有办法在firefox中加载url，然后获取临时文件并在之后清除临时文件？最佳答案 wget可以做到这一点，例如:wget-

linux section code wget curl save webpage

linux - 生成网页的图像(例如 jpg)？

我想创建一个网页看起来像的图像，例如创建html+图像的小缩略图。它不一定是完美的(例如flash/javascript渲染)。我会调用linux上的代码，理想情况下是一些java库，但命令行工具也很酷。有什么想法吗？最佳答案尝试CutyCapt，一个命令行实用程序。它使用Webkit以各种格式(SVG、PNG等)进行渲染和输出。关于linux-生成网页的图像(例如jpg)？，我们在StackOverflow上找到一个类似的问题： https://sta

例如 linux section stackoverflow thumbnails webpage

linux - 生成网页的图像(例如 jpg)？

我想创建一个网页看起来像的图像，例如创建html+图像的小缩略图。它不一定是完美的(例如flash/javascript渲染)。我会调用linux上的代码，理想情况下是一些java库，但命令行工具也很酷。有什么想法吗？最佳答案尝试CutyCapt，一个命令行实用程序。它使用Webkit以各种格式(SVG、PNG等)进行渲染和输出。关于linux-生成网页的图像(例如jpg)？，我们在StackOverflow上找到一个类似的问题： https://sta

例如 linux section stackoverflow thumbnails webpage

python - 如何使用 Python 保存 "complete webpage"而不仅仅是基本的 html

我正在使用以下代码使用Python保存网页:importurllibimportsysfrombs4importBeautifulSoupurl='http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'f=urllib.urlretrieve(url,'test.html')问题:此代码将html保存为没有javascript、图像等的基本html。我想将网页保存为完整的(就像我们在浏览器中有选项一样)更新:我现在使用以下代码来保存webapge的所有js/images/css文件，以便它可以保存为完整的网页，但

amp complete html section selenium python python-2.7 urllib2 urllib

python - 如何使用 Python 保存 "complete webpage"而不仅仅是基本的 html

我正在使用以下代码使用Python保存网页:importurllibimportsysfrombs4importBeautifulSoupurl='http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'f=urllib.urlretrieve(url,'test.html')问题:此代码将html保存为没有javascript、图像等的基本html。我想将网页保存为完整的(就像我们在浏览器中有选项一样)更新:我现在使用以下代码来保存webapge的所有js/images/css文件，以便它可以保存为完整的网页，但

amp complete html section selenium python python-2.7 urllib2 urllib

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源，如时代或彭博社)，我想确定该页面上的主要文章内容，并排除其他杂项元素，如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么？有哪些好的数据挖掘工具或库？(最好基于python) 最佳答案有很多方法可以做到这一点，但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中，将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go

python 网页 section 给定 labs-readability web-scraping html-parsing webpage

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源，如时代或彭博社)，我想确定该页面上的主要文章内容，并排除其他杂项元素，如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么？有哪些好的数据挖掘工具或库？(最好基于python) 最佳答案有很多方法可以做到这一点，但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中，将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go

python 网页 section 给定 labs-readability web-scraping html-parsing webpage

python - 如何使用 Python 截取网站的屏幕截图/图像？

我想要实现的是从python中的任何网站获取网站截图。环境:Linux 最佳答案这是一个使用webkit的简单解决方案:http://webscraping.com/blog/Webpage-screenshots-with-webkit/importsysimporttimefromPyQt4.QtCoreimport*fromPyQt4.QtGuiimport*fromPyQt4.QtWebKitimport*classScreenshot(QWebView):def__init__(self):self.app=QAppli

python self section webscraping screenshot webpage backend

python - 如何使用 Python 截取网站的屏幕截图/图像？

我想要实现的是从python中的任何网站获取网站截图。环境:Linux 最佳答案这是一个使用webkit的简单解决方案:http://webscraping.com/blog/Webpage-screenshots-with-webkit/importsysimporttimefromPyQt4.QtCoreimport*fromPyQt4.QtGuiimport*fromPyQt4.QtWebKitimport*classScreenshot(QWebView):def__init__(self):self.app=QAppli

python self section webscraping screenshot webpage backend