Chi arriva a una pagina di errore e perché? Qualche considerazione
12 gennaio 2009, scritto da Matteo
Qualche giorno fa ho personalizzato la pagina di errore 404 di questo blog: dopo il commento di Napolux, ho deciso di capire i motivi per cui gli utenti arrivino ad una pagina di errore, in modo da correggere i problemi dipendenti da me.
Ho quindi inserito uno spezzone di codice PHP nella pagina di errore, in modo che mi arrivi una mail ogni volta che viene visitata: nel messaggio trovo l’URL richiesto, l’eventuale URL di provenienza, l’indirizzo IP del richiedente e lo useragent. Dopo qualche giorno (e diverse centinaia di mail ricevute e controllate) ho notato un po’ di cose.
- La maggior parte delle richieste alla pagina di errore arrivano da script automatici, che cercano vulnerabilità a volte vecchie di anni. Da qui l’importanza di mantenere la baracca aggiornata e, per quanto possibile, sotto controllo.
- Alcuni bot dei motori di ricerca si ricordano di un mio vecchio errore, arrivando ancora a URL ormai corretti da quasi un mese. Probabilmente hanno un po’ di cache da aggiornate.
- Un paio di link interni sbagliati e corretti prontamente.
- Numero trascurabile di arrivi da link esterni errati: molto bene!
Attenzione però agli script in cerca di vulnerabilità: da parte nostra non possiamo fare altro che tenere aggiornato il software (Wordpress e relativi temi/plugin, nel mio caso). Il fornitore di hosting, invece, dovrebbe fare il suo lavoro monitorando la situazione (nei log del webserver si possono trovare molte cose interessanti) e tenendo aggiornate e ben configurate le macchine.
Ti è piaciuto l'articolo, eh? OFFRIMI UNA BIRRA! (è sufficiente essere iscritti a Paypal o avere una carta di credito, anche Postepay)














Newsletter
RSS articoli
RSS commenti





C’è un plugin di wordpress che svolge questo lavoro molto egregiamente rilasciando addirittura un feed RSS delle visite alla pagina di errore!!
Si chiama 404 notifier: http://alexking.org/projects/wordpress
@Samuele:
Cacchio, uso un paio di plugin di Alex King e non ci avevo mica fatto caso… peccato siano “deprecati”, comunque grazie del suggerimento!
Io ho fatto un’analisi accurata della mia pagina 404. Sono andato da diversi blogger a chiedere di cambiare link di post magari vecchi di due anni solo perchè una volta all’anno mi arrivano alla pagina 404!!!
@Samuele:
Ah, per gli link errati (pochissimi) che ho trovato l’ho fatto anch’io
Volendo si possono usare i file htaccess per redirigere tutti i vecchi link (o i link diversi da quelli nuovi per star meno
) verso la nuova home con un redirect 301.
Allo stesso modo si possono introdurre procedure specifiche in base a chi o cosa accede al nostro sito e in che modo. Nel mio sito ad esempio ho messo che non sia possibile utilizzare le immagini pubblicate linkandole direttamente o che non possano essere eseguite chiamante contenenti stringhe come o link esterni.
Questo di solito elimina buona parte delle chiamate a pagine inesistenti o vecchie mantenedo cmq una certa visibilità per quanto riguarda i 404 relativi ai motori di ricerca.
Rispetto all’uso di file php per fare questo inoltre, mentre le risposte a chiamate via htaccess son eseguite dal server prima dell’esecuzione di file, con file php c’è sempre il rischio che la cosa possa essere in qualche modo saltata.
@Mav:
Dici cose vere, ci sono modi molto più eleganti del “mio” per gestire l’arrivo di un utente su una pagina di errore. Ho una storica antipatia verso le regex (perchè sono un testone e non ho ne mai ben approfondito la sintassi, probabilmente…), ma cercherò di farmela passare quando inizierò a sviluppare il nuovo tema.