mardi 14 décembre 2010

Les contextes.. et leurs problèmes

Pour extraire les contextes des pages dumpées, nous avons écrit une boucle pour chaque fichier de chaque sens et de chaque langue..
Pour le français et l'espagnol, la commande egrep fonctionne plutôt bien puisque cygwin supporte les caractères latins. En revanche pour l'hébreu c'est une autre histoire.. en effet, cygwin ne reconnaît pas les caractères hébraïques.. et donc nous devons modifier un peu la boucle.. nous devons créer les fichiers contexte.txt à partir des fichiers contexte.html :







Une fois la boucle faite, on pourrait se dire que notre travail est terminé.. eh bien non!! il nous reste encore pas mal de travail.. En effet, Serge Fleury nous a fait remarqué que nous travaillons avec des locutions tels que "tenir la parole". Et du coup ça rend la tâche beaucoup difficile quant il s'agit de chercher les contextes.. On ne trouve pas forcément "tenir sa parole" dans tous les liens.. Cette locution peut être déclinée : "elle tient sa parole.....".. Nous devons donc chercher des expressions régulières qui nous permettraient de résoudre ça..

Allez courage!! c'est bientôt la fin.. :).. Encore quelques lignes de script et notre tableau sera enfin complet

Aucun commentaire:

Enregistrer un commentaire