Image

Base de conocimientos → Script de análisis de enlaces a sitios web

[Guiones]
Fecha de publicación: 20.10.2023

1. Enlaces internos

El script para analizar enlaces en un sitio web permite obtener un informe sobre el código de respuesta del servidor e identificar enlaces rotos que generan un error 404 (página no encontrada).

Con el tiempo, cualquier sitio sufre cambios a medida que se agregan páginas y enlaces de conexión, y los agregados hace mucho tiempo quedan obsoletos, lo que lleva a los visitantes a páginas inexistentes. Esto es especialmente importante cuando no tienes un sitio web de tarjeta de presentación, sino un sitio web con una gran cantidad de páginas.

Después de analizar todos los enlaces, verás en el informe qué páginas contienen enlaces rotos y podrás arreglarlos.

2. Enlaces externos

Todos los sitios están conectados entre sí mediante enlaces de una forma u otra. Los enlaces proporcionados a otros sitios quedan obsoletos después de un tiempo. Las razones pueden ser diferentes, por ejemplo, un cambio de estructura, la creación de un nuevo sitio o su cierre total. Dado que usted se vincula a material, guión o servicio en un sitio de terceros, no depende de usted, está controlado por otro propietario.

Este script también analiza la disponibilidad de enlaces externos que conducen desde su sitio. El informe también indicará páginas que contienen enlaces obsoletos que ya no existen, lo que le dará la oportunidad de verlos y corregirlos.

3. Instalando el script

En nuestro ejemplo, instalamos los paquetes necesarios en Debian 12: php8.2 y el propio script de verificación en formato phar, que ejecutaremos desde la consola de Linux.

apt install php php-xml
apt install wget
wget https://github.com/dantleech/fink/releases/download/0.10.3/fink.phar

4. Ejemplo de uso

Especifique su dominio en lugar de dominio.tld y, si es necesario, ajuste la ruta al archivo del informe.

php /root/fink.phar https://domain.tld -x0 -o /root/report.json

Al finalizar el trabajo, el script generará un informe, además podrás observar en tiempo real todo el proceso de rastreo de los enlaces indicados en las páginas de tu sitio.

En nuestro ejemplo, un sitio con 5.000 páginas se procesó en 14 minutos, lo que es mucho más rápido que utilizar los servicios online ofrecidos.

4.1 Analicemos el archivo del informe.

apt install jq
cat /root/report.json | jq -c '. | select(.status==404) | {url: .url, referrer: .referrer}' | jq

El archivo indicará las páginas en las que se encuentran los enlaces rotos, siguiendo el ejemplo:

404 - https://domain.tld/some/olddate-page/removed
      (found at https://domain.tld/about/agreement)

4.1.1 Salida de todo excepto los buenos

cat /root/report.json | jq -c '. | select(.status!=200) | {url: .url, referrer: .referrer}' | jq

En este ejemplo, se mostrarán todas las páginas encontradas, excepto aquellas que contengan el código 200.

Dependiendo de la frecuencia con la que se agrega contenido, la verificación y el análisis periódicos de los enlaces harán que su sitio sea aún más cómodo para los visitantes.





Sin comentarios aún