Howto: descagar un sitio web completo con el comando wget

wget es un comando presente en todos los sistemas Linux, que permite descargar archivos de la red. En muchas ocasiones se nos presenta descargar una web completa, por ejemplo un tutoeial de algo y está repartido en parias páginas html. Podemos emplear este comando para que las rastree de forma recursiva y obtenerlas todas.

Opciones del comando:

  • –recursive: descarga un sitio web completo, indagando en los enlaces.
  • –domains <dominio>: Indicas que no siga enlaces fuera del dominio especificado. Ej: –domain wordpress.com
  • –no-paren <direccion>t: Indica que no siga los enlaces fuera del padre. Ej:
    www.website.org/tutorials/html/
    solo rastreara los enlaces que apunten a páginas dentro de ../html
  • –page-requisites: Indica que obtenga todos los elementos  (images, CSS…).
  • –html-extension: Extensión con la que se almacenarán las páginas
  • –convert-links: Convierte los enlaces para trabajar de forma off-line.
  • –restrict-file-names=windows: Modifica el nombre de archivos para que se lean bien en Windows.
  • –no-clobber: No sobreescribir si el archivo existe.

Ejemplo:

$ wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains website.org \
     --no-parent \
         www.website.org/tutorials/html/

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: