logo
Secciones

Entradas del blog


Descargar una página web con wget

Sin comentarios

Wikipedia  explica en que consiste esta herramienta de la siguiente manera.

GNU Wget es una herramienta de software libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde la WWW.
Actualmente soporta descargas mediante los protocolos HTTPHTTPS y FTP.
Entre las características más destacadas que ofrece wget está la posibilidad de fácil descarga de mirrors (espejos) complejos de forma recursiva, conversión de enlaces para la visualización de contenidos HTML localmente, soporte para proxies

Veamos un par de ejemplo, comencemos con el uso sencillo de la herramienta.
Para bajar una página:
$ wget http://mignome.blogspot.mx

Para bajar el sitio completo de forma recursiva, incluyendo imágenes y otros tipos de datos:
$ wget -r http://mignome.blogspot.mx/
Muchos sitios verifican la identidad del navegador para aplicar diversas restricciones. Con Wget podemos burlar esto de la siguiente forma:
wget  -r -p -U Mozilla http://mignome.blogspot.mx/
O también podemos hacer pausa entre cada página, ya que de lo contrario el dueño del sitio puede darse cuenta que e estamos bajando el sitio completamente con Wget.
wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://mignome.blogspot.mx/

Comentarios:

Conoce la red social linuxClick
Redes sociales
Accesos directos