Image

Base de connaissances → Script d'analyse des liens vers un site Web

[Scripts]
Date de publication: 20.10.2023

1. Liens internes

Le script d'analyse des liens sur un site internet permet d'obtenir un rapport sur le code de réponse du serveur et d'identifier les liens rompus qui génèrent une erreur 404 (page introuvable).

Au fil du temps, tout site subit des modifications à mesure que des pages et des liens de connexion sont ajoutés, et ceux ajoutés il y a longtemps sont obsolètes, ce qui conduit les visiteurs vers des pages inexistantes. Ceci est particulièrement important lorsque vous n’avez pas un site Web de cartes de visite, mais un site Web comportant un grand nombre de pages.

Après avoir analysé tous les liens, vous verrez dans le rapport quelles pages contiennent des liens rompus et vous pourrez les réparer.

2. Liens externes

Tous les sites sont reliés entre eux par des liens d'une manière ou d'une autre. Les liens fournis vers d'autres sites deviennent obsolètes après un certain temps. Les raisons peuvent être différentes, par exemple un changement de structure, la création d'un nouveau site ou sa fermeture totale. Puisque vous créez un lien vers du matériel, un script ou un service sur un site tiers, cela ne dépend pas de vous, il est contrôlé par un autre propriétaire.

Ce script analyse également la disponibilité des liens externes menant à partir de votre site. Le rapport indiquera également les pages contenant des liens obsolètes qui n'existent plus, ce qui vous donnera la possibilité de voir et de corriger cela.

3. Installation du script

Dans notre exemple, nous installons les packages nécessaires sur Debian 12 : php8.2 et le script de vérification lui-même au format phar, que nous exécuterons depuis la console Linux.

apt install php php-xml
apt install wget
wget https://github.com/dantleech/fink/releases/download/0.10.3/fink.phar

4. Exemple d'utilisation

Spécifiez votre domaine au lieu de domain.tld et, si nécessaire, ajustez le chemin d'accès au fichier de rapport.

php /root/fink.phar https://domain.tld -x0 -o /root/report.json

Une fois le travail terminé, le script générera un rapport. Vous pourrez également observer en temps réel l'ensemble du processus d'exploration des liens indiqués sur les pages de votre site.

Dans notre exemple, un site de 5 000 pages a été traité en 14 minutes, ce qui est nettement plus rapide que l'utilisation des services en ligne proposés.

4.1 Analysons le fichier de rapport

apt install jq
cat /root/report.json | jq -c '. | select(.status==404) | {url: .url, referrer: .referrer}' | jq

Le fichier indiquera les pages sur lesquelles se trouvent les liens rompus, en suivant l'exemple :

404 - https://domain.tld/some/olddate-page/removed
      (found at https://domain.tld/about/agreement)

4.1.1 Afficher tout sauf les bons

cat /root/report.json | jq -c '. | select(.status!=200) | {url: .url, referrer: .referrer}' | jq

Dans cet exemple, toutes les pages trouvées seront affichées, sauf celles contenant le code 200.

En fonction de la fréquence d'ajout de contenu, une vérification et une analyse régulières des liens rendront votre site encore plus confortable pour les visiteurs.





Aucun commentaire pour l'instant