Rapporto: Robots.txt
Stiamo controllando se il file /robots.txt è presente e se è valido sul sito web del Pannello SMM
Il file robots.txt è un protocollo standard (RFC 9309) che indica ai motori di ricerca quali pagine indicizzare e quali ignorare. Aiuta a controllare la visibilità del sito web e a prevenire l'indicizzazione di pagine non rilevanti. Il file deve essere nella directory principale e accessibile tramite HTTP/HTTPS. Sebbene non sia una misura di sicurezza, guida i crawler web ben educati su come interagire con il tuo sito.
Raccomandazioni
- Crea un file robots.txt e aggiungilo alla radice del tuo sito web
- Aggiungi la sitemap.xml al file robots.txt
- Specifica le direttive user-agent per controllare l'accesso dei crawler
- Utilizza le direttive Allow e Disallow per gestire l'accesso alle pagine
- Includi la direttiva Crawl-delay per la limitazione della velocità
- Testa il tuo robots.txt utilizzando Google Search Console
Errori noti
- Il file robots.txt è presente ma vuoto
- Il file robots.txt è presente ma non valido (vedi dettagli)
- Il file robots.txt non è presente
Esempio di robots.txt
Questo è un esempio di un file robots.txt che viene utilizzato per controllare la visibilità del sito web del Pannello SMM
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /auth/
Disallow: /auth/login
Disallow: /auth/register
Disallow: /auth/forgot-password
Disallow: /auth/reset-password