草庐IT

linux - 在 Linux 服务器上保存完整网页的最佳方法是什么?

我需要在我的Linux服务器上存档完整的页面,包括任何链接图像等。寻找最佳解决方案。有没有办法保存所有Assets,然后将它们全部重新链接以在同一目录中工作?我考虑过使用curl,但我不确定如何做这一切。另外,我可能需要PHP-DOM吗?有没有办法在服务器上使用firefox并在加载地址或类似内容后复制临时文件?欢迎任何输入。编辑:似乎wget不会工作,因为需要渲染文件。我在服务器上安装了firefox,有没有办法在firefox中加载url,然后获取临时文件并在之后清除临时文件? 最佳答案 wget可以做到这一点,例如:wget-

linux - 在 Linux 服务器上保存完整网页的最佳方法是什么?

我需要在我的Linux服务器上存档完整的页面,包括任何链接图像等。寻找最佳解决方案。有没有办法保存所有Assets,然后将它们全部重新链接以在同一目录中工作?我考虑过使用curl,但我不确定如何做这一切。另外,我可能需要PHP-DOM吗?有没有办法在服务器上使用firefox并在加载地址或类似内容后复制临时文件?欢迎任何输入。编辑:似乎wget不会工作,因为需要渲染文件。我在服务器上安装了firefox,有没有办法在firefox中加载url,然后获取临时文件并在之后清除临时文件? 最佳答案 wget可以做到这一点,例如:wget-

linux - 生成网页的图像(例如 jpg)?

我想创建一个网页看起来像的图像,例如创建html+图像的小缩略图。它不一定是完美的(例如flash/javascript渲染)。我会调用linux上的代码,理想情况下是一些java库,但命令行工具也很酷。有什么想法吗? 最佳答案 尝试CutyCapt,一个命令行实用程序。它使用Webkit以各种格式(SVG、PNG等)进行渲染和输出。 关于linux-生成网页的图像(例如jpg)?,我们在StackOverflow上找到一个类似的问题: https://sta

linux - 生成网页的图像(例如 jpg)?

我想创建一个网页看起来像的图像,例如创建html+图像的小缩略图。它不一定是完美的(例如flash/javascript渲染)。我会调用linux上的代码,理想情况下是一些java库,但命令行工具也很酷。有什么想法吗? 最佳答案 尝试CutyCapt,一个命令行实用程序。它使用Webkit以各种格式(SVG、PNG等)进行渲染和输出。 关于linux-生成网页的图像(例如jpg)?,我们在StackOverflow上找到一个类似的问题: https://sta

python - 如何使用 Python 保存 "complete webpage"而不仅仅是基本的 html

我正在使用以下代码使用Python保存网页:importurllibimportsysfrombs4importBeautifulSoupurl='http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'f=urllib.urlretrieve(url,'test.html')问题:此代码将html保存为没有javascript、图像等的基本html。我想将网页保存为完整的(就像我们在浏览器中有选项一样)更新:我现在使用以下代码来保存webapge的所有js/images/css文件,以便它可以保存为完整的网页,但

python - 如何使用 Python 保存 "complete webpage"而不仅仅是基本的 html

我正在使用以下代码使用Python保存网页:importurllibimportsysfrombs4importBeautifulSoupurl='http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'f=urllib.urlretrieve(url,'test.html')问题:此代码将html保存为没有javascript、图像等的基本html。我想将网页保存为完整的(就像我们在浏览器中有选项一样)更新:我现在使用以下代码来保存webapge的所有js/images/css文件,以便它可以保存为完整的网页,但

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想确定该页面上的主要文章内容,并排除其他杂项元素,如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么?有哪些好的数据挖掘工具或库?(最好基于python) 最佳答案 有很多方法可以做到这一点,但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中,将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想确定该页面上的主要文章内容,并排除其他杂项元素,如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么?有哪些好的数据挖掘工具或库?(最好基于python) 最佳答案 有很多方法可以做到这一点,但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中,将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go

python - 如何使用 Python 截取网站的屏幕截图/图像?

我想要实现的是从python中的任何网站获取网站截图。环境:Linux 最佳答案 这是一个使用webkit的简单解决方案:http://webscraping.com/blog/Webpage-screenshots-with-webkit/importsysimporttimefromPyQt4.QtCoreimport*fromPyQt4.QtGuiimport*fromPyQt4.QtWebKitimport*classScreenshot(QWebView):def__init__(self):self.app=QAppli

python - 如何使用 Python 截取网站的屏幕截图/图像?

我想要实现的是从python中的任何网站获取网站截图。环境:Linux 最佳答案 这是一个使用webkit的简单解决方案:http://webscraping.com/blog/Webpage-screenshots-with-webkit/importsysimporttimefromPyQt4.QtCoreimport*fromPyQt4.QtGuiimport*fromPyQt4.QtWebKitimport*classScreenshot(QWebView):def__init__(self):self.app=QAppli