Tra il codice e la realtà

omnia munda mundis
  • rss
  • Inizio
  • About
  • Andrea Murru

Spider e valutazione dell’autorizzazione all’accesso in robots.txt 1/3

Andrea Murru | 15 luglio 2010

Nella realizzazione di uno spider, uno degli aspetti che devono essere garantiti, è il rispetto della volontà del proprietario di un sito, riguardo all’uso dei dati contenuti in esso.

Per quanto esistano degli standard più completi e complessi ( in particolare l’ACAP ), il metodo più utilizzato per la restrizione dell’accesso ad un sito, è sicuramente l’utilizzo di un file di nome robots.txt nella home del sito.

Il protocollo utilizzato è estremamente limitato e consente solamente di impedire (completamente) a tutti o ad uno User-Agent particolare l’accesso ad una o più risorse o cartelle del sito. Non è possibile limitare l’utilizzo delle informazioni ( ad esempio l’elaborazione automatica, la possibilità di visualizzare i dati senza linkare direttamente la pagina da cui sono tratti, la memorizzazione, l’aggiornamento etc ). Non è possibile consentire esplicitamente l’accesso ( ma solo proibirlo ). Non è possibile imporre delle restrizioni rispetto ad altre caratteristiche dello User-Agent come tecnologie supportate ( Javascript ad esempio ) o provenienza geografica, IP, organizzazione, etc. Non è possibile neppure utilizzare uno stesso files per domini o sotto-domini differenti.

Inoltre non esiste uno standard di riferimento e ci sono alcune estensioni ( come Request-rate e Visit-time o l’utilizzo di wildcard per la selezione dello User-Agent o delle risorse ) che sono supportate solo da alcuni bot, ma non da altri.

Anche dalla versione “base” è però possibile stabilire molte informazioni ed è quindi doveroso tentare di assecondare almeno quelle.

La mia è una considerazione di buon senso più che un vincolo legale o morale: non è detto che rispettare i vincoli espressi di robots.txt garantisca completamente da questioni legali, né al contrario non rispettarle sia di sicuro contro la volontà del “proprietario” del sito (che magari ha solo impostato più o meno inconsciamente delle restrizioni più forti di quello che voleva o magari, se interpellato, potrebbe sicuramente concedere l’accesso). Particolare a riguardo è il caso di Pete Warden che è stato costretto a cancellare il db degli utenti che aveva raccolto da facebook, tramite uno spider che rispettava robots.txt.

In sostanza mi sembra ragionevole pensare (entro certi limiti) che i dati presenti su un sito siano in qualche modo del proprietario del sito, anche se non esprime chiaramente le proprie intenzioni tramite un determinato strumento (robots.txt ad esempio) o le esprime in modo non accurato.

Questioni da legali, comunque… veniamo al codice: come realizzare un’analizzatore di robots.txt in JAVA ?

Comments
Nessun Commento »
Categorie
Programmazione
Tags
Java, Robots.txt, Spider
Commenti RSS Commenti RSS
Trackback Trackback

Contatti



sitòfono

Suggeriti

  • Carlo Pescio
  • CICAP
  • Programmazione.it
  • Technology Bites Technology Bites
  • UAAR UAAR
  • Wall Street Italia

RSS news da leggere

  • Una maggioranza per la legge elettorale forse c'è - Europaquotidiano.it 7 settembre 2010
  • X Factor 2010, Giudica i giudici: Elio (I puntata) - Rockol.it 7 settembre 2010
  • Hawking: ateo da sempre - Altre Notizie 7 settembre 2010
  • Le campane fesse del Vaticano - La Repubblica 7 settembre 2010
  • Ora basta: Minzolini vattene! - Tutto Tv 7 settembre 2010
  • Dottor Newman secondo BXVI - La Stampa 7 settembre 2010
  • Groenlandia: iceberg giganteminaccia la navigazione 7 settembre 2010
  • Snoop Dogg e gli altri: quando le stardiventano esche per le truffe online 7 settembre 2010
  • I piloni galleggianti sonoil futuro dell'eolico marino 7 settembre 2010
  • Efficienza energetica: negli ultimi cinque anni superati gli obiettivi nazionali 7 settembre 2010
  • Pakistan: Onu, 10 milioni di senzatetto - ANSA.it 7 settembre 2010

Lavoro

  • Abbeynet
  • Pane e Dolce Pane e Dolce
  • Plus Immobiliare

admin

  • Collegati
  • Voce RSS
  • RSS dei commenti
  • WordPress.org

categorie

  • Attualità (19)
  • Filosofia (7)
  • Informatica (9)
  • Programmazione (11)
  • Religione (15)
  • Storia (1)

tag

affidabilità Andrea Murru Bagnasco Barragan Benedetto XVI Berlusconi bibbia blog C++ Calice d'oro Carlo Pescio cloaking comandamenti completion routine Corte di Cassazione costituzione Droga efficienza Eluana Englaro europeana eutanasia fluido non newtoniano gioia google gSOAP iDoser informazione ip-delivery Java JSON Kant Le Iene libertà Linus Torvalds Marcello Pera miracoli numeri omonimia overlapped I/O peccato pedofilia pena di morte Penitenzieri ragione XML
rss Commenti RSS