Après avoir créer nos différentes arborescences..nous avons voulu écrire un script où chaque fichier serait installé à sa place.. :
Là le script ci dessous va aspirer et prendre le contenu textuel du mot parole en espagnol pour chaque lien :
#!/bin/bash
echo "Donnez le nom du fichier contenant les liens http : ";
read fic;
echo "Donnez le nom de fichier html où stocker ces liens : ";
read tablo;
echo $tablo ;
echo "<html><head><title>tableau de liens</title></head><body><table border=1>" > $tablo;
echo "<tr><td>Numéros</td><td>URLs</td><td>Pages aspirées</td><td>Dump encodage original</td>" >> $tablo;
i=1
for nom in `cat $fic`
{
sens= "echo $nom |cut -d\- -f1" ;
langue= "basename "$nom" |cut -d\- -f2";
wget -O ../PAGES-ASPIREES/Pparole-es/$i.html $nom
lynx -dump $nom > ../DUMP-TEXT/Dorigparole-es/$i.txt
echo "<tr><td>$i</td><td><a href=\"$nom\">lien $i</a></td><td><a href=\"../PAGES-ASPIREES/Pparole-es/$i.html\">$i.html</a></td><td><a href=\"../DUMP-TEXT/Dorigparole-es/$i.txt\">$i.txt</a></td></tr>" >> $tablo;
let "i+=1" ;
}
echo "</table></body></html>" >> $tablo;
Il a fallu nous placer dans le bon dossier... Bon ok.. tout n'est pas automatique.. mais nous progressons :)
Aucun commentaire:
Enregistrer un commentaire