Anarchopedia:Bot/weblinkchecker.py

From Anarchopedia
Jump to: navigation, search

Son objectif est de trouver et lister les liens externes obsolètes (erreur http 404 principalement).

weblinkchecker.py va tester toutes les URL soit d'un article en particulier soit de tous les articles (par ordre alphabétique). Il testera seulement les URL HTTP et HTTPS en omettant les liens en commentaire ou dans des balises nowiki. Pour des questions de performances, jusqu'à 50 threads concurrents peuvent être utilisés pour tester les liens.

Le bot ne fera pas de modification dans les articles et donc ne retirera pas les liens externes invalides (il est trop compliqué de déterminer par quoi remplacer les liens morts) mais fabriquera une liste de liens morts selon le critère suivant :

  • le lien retourne au moins 2 erreurs sur un intervalle d'au moins une semaine.

Cela devrait permettre d'éliminer les pages en erreur due à une interruption temporaire de service. Attention de vérifier que des problèmes de votre connexion ne génère pas des erreurs.

Le bot sauvegardera un historique des liens en erreur dans le répertoire deadlinks, exemple deadlinks/deadlinks-wikipedia-fr.dat. Ce fichier n'a pas vocation à être lu ou modifié par des humains. Le fichier historique sera écrit en fin d'exécution du bot (soit parce que le traitement est terminé, soit par interruption de l'utilisateur en appuyant simultanément sur les touches CTRL-C).

Après avoir testé un lot de pages, vous pouvez redemander une exécution sur ces pages avec la commande suivante :

python weblinkchecker.py -repeat

Si le bot trouve un lien invalide qui était déjà invalide au moins une semaine avant, il ajoutera le lien dans un fichier texte, exemple : deadlinks/results-wikipedia-fr.txt. Le texte est écrit dans un format wiki afin que vous puissiez le publier aisément (par exemple pour obtenir de l'aide).


(l'option "-talk" ne semble pas fonctionner)


test effectué "python weblinkchecker.py Utilisateur:Apbot/article1essai", ça donne :


Catégorie:Bot