La semaine dernière nous vous faisions part de notre difficulté à aspirer les pages et à "dumper" sans écraser les fichiers.. Nous nous sommes simplifié la tâche en supprimant les sous-dossiers dans URLS..
voici donc le script du tableau à 4 colonnes :
#!/bin/bash
echo "Donnez le nom du dossier contenant les fichiers de liens http : ";
read dossier;
echo "Donnez le nom du fichier html où stocker ces liens dans des tableaux : ";
read tablo;
echo "<html><head><title>tableau de liens</title></head><body>" > $tablo;
i=1
for fichier in `ls $dossier`
{
echo "<table border=1>" >> $tablo;
echo "<tr><td align="center" bgcolor=\"silver\" colspan=\"4\"><b>Fichier $fichier</b></td></tr>" >> $tablo;
echo "<tr><td>Numéros</td><td>URLs</td><td>Pages aspirées</td><td>Dump initial</td>" >> $tablo;
for nom in `cat $dossier/$fichier`
{
wget -O ../PAGES-ASPIREES/$i.html $nom
lynx -dump $nom > ../DUMP-TEXT/$i.txt
echo "<tr><td>$i</td><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/$i.html\">Page n°$i</a></td><td><a href=\"../DUMP-TEXT/$i.txt\">Dump initial n°$i</a></td></tr>" >> $tablo;
let "i+=1" ;
}
echo "</table>" >> $tablo;
echo "<br>" >> $tablo;
}
echo "</body></html>" >> $tablo;
Prochaine étape : trouver l'encodage des pages en hébreu, en espagnol, et en français...
Aucun commentaire:
Enregistrer un commentaire