<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Tra il codice e la realtà &#187; Robots.txt</title>
	<atom:link href="http://www.andreamurru.com/tag/robots-txt/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.andreamurru.com</link>
	<description>omnia munda mundis</description>
	<lastBuildDate>Mon, 06 Feb 2012 10:15:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Spider e valutazione dell&#8217;autorizzazione all&#8217;accesso in robots.txt 1/3</title>
		<link>http://www.andreamurru.com/2010/07/15/spider-e-valutazione-dell-autorizzazione-all-accesso-in-robots-txt-1-3/</link>
		<comments>http://www.andreamurru.com/2010/07/15/spider-e-valutazione-dell-autorizzazione-all-accesso-in-robots-txt-1-3/#comments</comments>
		<pubDate>Thu, 15 Jul 2010 15:26:52 +0000</pubDate>
		<dc:creator>Andrea Murru</dc:creator>
				<category><![CDATA[Programmazione]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[Robots.txt]]></category>
		<category><![CDATA[Spider]]></category>

		<guid isPermaLink="false">http://www.andreamurru.com/?p=123</guid>
		<description><![CDATA[Nella realizzazione di uno spider, uno degli aspetti che devono essere garantiti, è il rispetto della volontà del proprietario di un sito, riguardo all&#8217;uso dei dati contenuti in esso. Per quanto esistano degli standard più completi e complessi ( in particolare l&#8217;ACAP ), il metodo più utilizzato per la restrizione dell&#8217;accesso ad un sito, è [...]]]></description>
			<content:encoded><![CDATA[<p>Nella realizzazione di uno spider, uno degli aspetti che devono essere garantiti, è il rispetto della volontà del proprietario di un sito, riguardo all&#8217;uso dei dati contenuti in esso.</p>
<p>Per quanto esistano degli standard più completi e complessi ( in particolare l&#8217;<a title="Automated Content Access Protocol" href="http://the-acap.org/">ACAP</a> ), il metodo più utilizzato per la restrizione dell&#8217;accesso ad un sito, è sicuramente l&#8217;utilizzo di un file di nome <a title="robots.txt" href="http://it.wikipedia.org/wiki/Robots.txt">robots.txt</a> nella home del sito.</p>
<p>Il protocollo utilizzato è estremamente limitato e consente solamente di impedire (completamente) a tutti o ad uno User-Agent particolare l&#8217;accesso ad una o più risorse o cartelle del sito. Non è possibile limitare l&#8217;<em>utilizzo</em> delle informazioni ( ad esempio l&#8217;elaborazione automatica, la possibilità di visualizzare i dati senza linkare direttamente la pagina da cui sono tratti, la memorizzazione, l&#8217;aggiornamento etc ). Non è possibile consentire esplicitamente l&#8217;accesso ( ma solo proibirlo ). Non è possibile imporre delle restrizioni rispetto ad altre caratteristiche dello User-Agent come tecnologie supportate ( Javascript ad esempio ) o provenienza geografica, IP, organizzazione, etc. Non è possibile neppure utilizzare uno stesso files per domini o sotto-domini differenti.</p>
<p>Inoltre non esiste uno standard di riferimento e ci sono alcune estensioni ( come Request-rate e Visit-time o l&#8217;utilizzo di wildcard per la selezione dello User-Agent o delle risorse ) che sono supportate solo da alcuni bot, ma non da altri.</p>
<p>Anche dalla versione &#8220;base&#8221; è però possibile stabilire molte informazioni ed è quindi doveroso tentare di assecondare almeno quelle.</p>
<p>La mia è una considerazione di buon senso più che un vincolo legale o morale: non è detto che rispettare i vincoli espressi di robots.txt garantisca completamente da questioni legali, né al contrario non rispettarle sia di sicuro contro la volontà del &#8220;proprietario&#8221; del sito (che magari ha solo impostato più o meno inconsciamente delle restrizioni più forti di quello che voleva o magari, se interpellato, potrebbe sicuramente concedere l&#8217;accesso). Particolare a riguardo è il caso di <strong>Pete Warden</strong> che è stato costretto a <a title="Blog di Pete Warden" href="http://petewarden.typepad.com/searchbrowser/2010/03/facebook-data-destruction.html">cancellare il db degli utenti che aveva raccolto da facebook</a>, tramite uno spider che rispettava robots.txt.</p>
<p>In sostanza mi sembra ragionevole pensare (entro certi limiti) che i dati presenti su un sito siano in qualche modo del proprietario del sito, anche se non esprime chiaramente le proprie intenzioni tramite un determinato strumento (robots.txt ad esempio) o le esprime in modo non accurato.</p>
<p>Questioni da legali, comunque&#8230; veniamo al codice: come realizzare un&#8217;analizzatore di robots.txt in JAVA ?</p>
]]></content:encoded>
			<wfw:commentRss>http://www.andreamurru.com/2010/07/15/spider-e-valutazione-dell-autorizzazione-all-accesso-in-robots-txt-1-3/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

