Scaricare file dal web

In questo esercizio, si imparerà come utilizzare il software wget per effettuare il download di una pagina web, o addirittura di un sito completo.

Il comando wget

Le pagine web sono scritte in un linguaggio di Markup (ovvero un linguaggio simile ad un linguaggio di programmazione, ma che ha come scopo di descrivere come visualizzare un documento, invece che di eseguire un algoritmo).

Si può utilizzare il comando wget per scaricare il codice di una pagina. Ad esempio, si provi a scaricare il codice della pagina del corso del laboratorio, con il comando:

$ wget https://people.cs.dm.unipi.it/lcmc/2020-21/
Questo comando creerà un file di nome index.html, il nome che viene utilizzato per cercare una pagina web quando non ne è specificato alcuno in particolare. Si verifichi il contenuto del file scaricato utilizzando cat o less.

Si determini il comando da utilizzare per chiedere a wget di scaricare la pagina del laboratorio, come fatto sopra, chiedendo però di: Per questo compito ci si può appoggiare al comando man. Una volta determinato il comando necessario, utilizzarlo per salvare l'output su un nuovo file index2.html utilizzando la redirezione dell'output (con il simbolo >).
I due file index.html e index2.html sono identici? Provare a confrontarne la dimensione utilizzando ls, oppure con confrontarli con il comando diff.

Il comando wget può essere usato anche per creare una copia completa di un sito web. Ad esempio, potreste provare a clonare gli appunti del corso con il comando

$ wget -r --no-parent -p https://people.cs.dm.unipi.it/lcmc/2020-21/
In questo comando, gli argomento hanno questo significato:

Si scelga un sito a propria scelta, e lo si scarichi sulla propria macchina. Attenzione, conviene usare le opzioni sopra per limitare il numero di pagine scaricare, e potenzialmente anche qualcuna aggiuntiva. Una volta scaricato il sito, è possibile copiarlo con scp -r, ed aprire i file locali con un qualunque web browser. A volte i link potrebbero aver bisogno di essere convertiti per funzionare, esiste un'opzione apposita di Wget, che però va cercata nel manuale.

Attenzione: scaricare molti dati dal web potrebbe riempire velocemente la vostra home directory. In ogni caso, è buona norma eliminare i file di cui non avete bisogno, come quelli scaricati in questi esercizi per fare delle prove, utilizzando il comando rm.