Tra il codice e la realtà

Spider e valutazione dell’autorizzazione all’accesso in robots.txt 1/3

Andrea Murru | 15 Luglio 2010

Nella realizzazione di uno spider, uno degli aspetti che devono essere garantiti, è il rispetto della volontà del proprietario di un sito, riguardo all’uso dei dati contenuti in esso.

Per quanto esistano degli standard più completi e complessi ( in particolare l’ACAP ), il metodo più utilizzato per la restrizione dell’accesso ad un sito, è sicuramente l’utilizzo di un file di nome robots.txt nella home del sito.

Il protocollo utilizzato è estremamente limitato e consente solamente di impedire (completamente) a tutti o ad uno User-Agent particolare l’accesso ad una o più risorse o cartelle del sito. Non è possibile limitare l’utilizzo delle informazioni ( ad esempio l’elaborazione automatica, la possibilità di visualizzare i dati senza linkare direttamente la pagina da cui sono tratti, la memorizzazione, l’aggiornamento etc ). Non è possibile consentire esplicitamente l’accesso ( ma solo proibirlo ). Non è possibile imporre delle restrizioni rispetto ad altre caratteristiche dello User-Agent come tecnologie supportate ( Javascript ad esempio ) o provenienza geografica, IP, organizzazione, etc. Non è possibile neppure utilizzare uno stesso files per domini o sotto-domini differenti.

Inoltre non esiste uno standard di riferimento e ci sono alcune estensioni ( come Request-rate e Visit-time o l’utilizzo di wildcard per la selezione dello User-Agent o delle risorse ) che sono supportate solo da alcuni bot, ma non da altri.

Anche dalla versione “base” è però possibile stabilire molte informazioni ed è quindi doveroso tentare di assecondare almeno quelle.

La mia è una considerazione di buon senso più che un vincolo legale o morale: non è detto che rispettare i vincoli espressi di robots.txt garantisca completamente da questioni legali, né al contrario non rispettarle sia di sicuro contro la volontà del “proprietario” del sito (che magari ha solo impostato più o meno inconsciamente delle restrizioni più forti di quello che voleva o magari, se interpellato, potrebbe sicuramente concedere l’accesso). Particolare a riguardo è il caso di Pete Warden che è stato costretto a cancellare il db degli utenti che aveva raccolto da facebook, tramite uno spider che rispettava robots.txt.

In sostanza mi sembra ragionevole pensare (entro certi limiti) che i dati presenti su un sito siano in qualche modo del proprietario del sito, anche se non esprime chiaramente le proprie intenzioni tramite un determinato strumento (robots.txt ad esempio) o le esprime in modo non accurato.

Questioni da legali, comunque… veniamo al codice: come realizzare un’analizzatore di robots.txt in JAVA ?

Comments: Nessun Commento »
Categorie: Programmazione
Tags: Java, Robots.txt, Spider
Commenti RSS
Trackback

Questionario sul rapporto con la scienza

Andrea Murru | 16 Giugno 2010

Organizzato in diverse nazioni da “Le Scienze”, un questionario che vale la pena completare.

Comments: Nessun Commento »
Categorie: Attualità
Commenti RSS
Trackback

I numeri di Google

Andrea Murru | 16 Giugno 2010

E’ sempre molto interessante avere dei riferimenti numerici relativi al “giganti” del software: sapere quanti e quali server utilizzano, di quanta banda hanno bisogno, che tecnologie adottano, quanti sviluppatori hanno, etc etc è un modo irrinunciabile per rimanere a contatto con la realtà “che conta” a livello internazionale.

In particolare l’universo di Google con le tecniche utilizzate, i suoi approcci innovativi (dalla GUI allo sviluppo web, dal cloud computing al software e agli algoritmi utilizzati e spesso rilasciati pubblicamente) sono oltremodo importanti, perché spesso anticipano dei trend che poi investiranno e saranno “interiorizzati” dagli altri ed inevitabilmente utilizzati massivamente in virtù della assoluta qualità.

Ho letto quindi con piacere un recente articolo che, introducendo il nuovo indice delle ricerche (caffeine), fornisce qualche numero sul volume delle pagine indicizzate:

Google indicizza centinaia di migliaia di GB al giorno!

Mi sembra davvero una cifra enorme, anche per Google… quale complessità nel memorizzarla e sopratutto nel ricercarci all’interno !

Comments: 1 Commento »
Categorie: Attualità, Informatica
Tags: caffeine, google
Commenti RSS
Trackback

Ottimo non è buono

Andrea Murru | 18 Maggio 2010

Nell’uso comune del termine, con ‘ottimo’ s’intende principalmente ‘molto buono‘.

In informatica (e in matematica) con soluzione ottima s’intende ‘la migliore possibile’ e ovviamente non è affatto detto che sia ‘buona’.

La differenza principale tra i due termini è (a mio parare) soprattutto il fatto che ottimo è necessariamente contestuale. E’ quindi (spesso) concretamente definibile: ad esempio l’algoritmo che utilizza meno RAM o è il più veloce a produrre i risultati, etc, etc. Ha però anche implicitamente più gradi di libertà, nel senso che il contesto nel quale va ricercato l’ottimo è spesso difficile da definire; anzi è spesso l’aspetto più difficile da definire.

Il fatto è che quasi sempre gli architetti del software non credono di avere certi gradi di libertà o, al contrario, assumono sbagliando di averli.

Io ad esempio ho sempre considerato concettualmente sbagliati i meccanismi di monitoraggio attivo del software (un software che al crash di un altro lo riavvia): non solo si rischia di non risolvere il vero problema (il crash), ma -peggio- si rischia di sviluppare un sistema di monitoraggio complesso che AGGIUNGE problemi alla piattaforma nel suo complesso.

Non per questo però non è detto che (in pratica, in un certo contesto operativo) sviluppare e mantenere un sistema di monitoraggio attivo non sia la soluzione ottima (magari pure non buona in assoluto). E’ quello che hanno pensato anche a reddit all’inizio della loro storia: in sostanza riavviare il server in modo automatico era senz’altro meglio che farlo “a mano”, svegliandosi ogni poche ore 🙂

Più seriamente l’aspetto focale è che un architetto software deve essere sempre ben conscio di dover ricercare dei massimi locali e che spesso, gli intervalli all’interno dei quali cercarli sono parte del problema e che quasi sempre sono tempo-varianti.

Comments: Nessun Commento »
Categorie: Informatica, Programmazione
Tags: crash, monitoraggio
Commenti RSS
Trackback

Come è stata realizzata la sindone

Andrea Murru | 9 Aprile 2010

Il clamore mediatico attorno alla sindone ( ad esempio il milione e mezzo di visitatori attesi alla prossima ostensione ) mi ha sempre stupito profondamente e rappresenta un esempio lampante del “desiderio” di credere al di là e al di sopra di qualsiasi considerazione razionale. Oltretutto in questo i “credenti” superano nettamente le stesse gerarchie ecclesiastiche che mantengono un profilo molto più moderato; lo stesso Papa Clemente VII, nel 1389, permise le ostensioni della sindone solo a patto che si dicesse chiaramente che si trattava di una “rappresentazione” e non del vero sudario di Cristo. In tempi più recenti, nel 1988, il cardinale Ballestrero, commentò con grande serenità i risultati dell’esame al carbonio 14:

Penso non sia il caso di mettere in dubbio i risultati. E nemmeno è il caso di rivedere le bucce agli scienziati se il loro responso non quadra con le ragioni del cuore.

A parte le considerazioni filosofiche sulla forza del desiderio di credere, devo ammettere che qualche curiosità sulle tecniche di realizzazione della sindone è ovviamente presente in me e credo anche in buona parte di coloro i quali pensano che la magia e i miracoli siano semplicemente fenomeni dei quali ANCORA non siamo in grado di dare una spiegazione. Questo non vuol dire affatto che fenomeni NON spiegabili scientificamente non siano reali o non accadano, ma neppure, ovviamente, che siano la “prova” dell’esistenza di qualcos’altro (divinità, maghi, etc).

Senz’altro però, quando una spiegazione scientifica esiste, è documentata e riproducibile, allora è davvero una gioia dello spirito, perché si partecipa alla conquista di un altro tassello nella conoscenza della realtà. Per questo ammiro profondamente il lavoro del prof. Luigi Garlaschelli che ha spiegato come la sindone è stata realizzata nel modo più completo e comprensibile: realizzandone una copia con metodi disponibili nel XIV secolo.

l'originale

la riproduzione

Sul sito del professore trovate altre foto e una documentazione ( abbastanza limitata ) sul lavoro svolto; inoltre anche il professore fa ogni tanto le sue “ostensioni” … domani 10 Aprile è a Livorno.

Comments: Nessun Commento »
Categorie: Attualità, Religione, Storia
Tags: Luigi Garlaschelli, miracoli, ragione, sindone
Commenti RSS
Trackback

Cambio dominio

Andrea Murru | 7 Aprile 2010

Da oggi il blog che state leggendo non è più ospitato su WordPress,com, ma è diventato “autonomo”; il nuovo indirizzo è ora www.andreamurru.com.

Ovviamente è stata l’occasione per fare un po’ di esperienza “direttamente” con wordpress, i plugin e la migrazione di un “sito”, con tutto quello che si porta dietro dai redirect, al tool di gestione delle statistiche e quant’altro.

Spero che sia tutto a posto, ma comunque sia, nei prossimi giorni, posterò un elenco dei task specifici che una migrazione comporta.

Comments: Nessun Commento »
Categorie: Informatica
Tags: Andrea Murru, worpress
Commenti RSS
Trackback

Ciò di cui l'uomo ha più bisogno non può essergli garantito per legge.

Andrea Murru | 4 Febbraio 2010

Ho sempre trovato al limite del ridicolo il fatto che la costituzione stabilisca il “diritto alla salute” (art.32) ed in un certo senso non posso quindi che essere in accordo con Benedetto XVI quando considera la legge incapace di garantire i bisogni primari dell’uomo.

Mi sembra infatti dotato di assoluta evidenza che la Costituzione, la Legge, lo Stato, o l’Umanità intera non siano assolutamente nelle condizioni di garantire alcuno dei principali bisogni che pure (in taluni casi) considerano (con una certa dose di sfrontatezza utopica) “Diritti” degli uomini, a cominciare dalla salute e addirittura dalla semplice sussistenza. Sarebbe invece molto più sensato parlare di diritto dei cittadini ad avere la propria salute tutelata dallo Stato, tramite cure mediche e attività di prevenzione. Attenzione comunque: DIRITTO e non OBBLIGO (per i singoli cittadini).

Il papa però non si riferisce però banalmente all’impossibilità di stabilire per legge dei principi (astratti) che nessuno può (realmente) garantire. Troppo banale. Ricordiamoci invece che a suo parare da questo scaturisce il “bisogno” di Dio.

A parte il solito salto privo di ogni consequenzialità logica (x non può fare y, QUINDI solo Dio può), c’è una sottile conseguenza che potrebbe sfuggire facilmente: un principio di legge (per quanto astratto) è comunque scritto, fissato e vincolante; se invece il riferimento è Dio, beh allora non c’è alcun limite definito con chiarezza e in sostanza l’unico arbitro di questioni di principio è la Chiesa stessa. In modo assolutamente coerente con quest’ottica, infatti, la legge non deve fissare limiti di principio, ma può benissimo (anzi DEVE) porre dei limiti, vincolare, impedire, obbligare a determinati comportamenti in casi specifici in “applicazione” di principi che solo Dio può rappresentare.

Per dirla in modo più chiaro è semplicemente un modo (apparentemente innocente) per arrogare alla chiesa un diritto “assoluto”, superiore alla legge (usata comunque in modo strumentale) e non sottoposto a nulla, neppure al semplice obbligo di “scrittura”.

Il tutto senza dimenticare la profonda contraddizione originaria del rapporto tra fede e legge: l’uomo è (per scelta di Dio) LIBERO di scegliere e di compiere il MALE, ma il cittadino deve essere OBBLIGATO a compiere il BENE (magari anche il suo proprio).

Comments: Nessun Commento »
Categorie: Attualità, Filosofia, Religione
Tags: Benedetto XVI, costituzione, libertà, peccato
Commenti RSS
Trackback

Yahoo Pipes – mashup made easy

Andrea Murru | 4 Settembre 2009

Oggi ho provato ad utilizzare Yahoo Pipes: davvero impressionante!

Si tratta di un servizio che consente di aggregare, filtrare, generare feed partendo dalle più disparate fonti. E’ ad esempio possibile recuperare i feed dei principali quotidiani e filtrare gli articoli in base al fatto che contengano o meno alcune parole (o più in generale un’espressione regolare). Potentissima poi la possibilità di utilizzare come fonte una ricerca di google news (o blog search), sfruttandone tutte le potenzialità per ottenere un’inesauribile fonte personalizzata di new di qualità. Putroppo non è possibile utilizzare (direttamente) i risultati di una ricerca sul web (con google), ma è possibile avere a disposizione quelli di yahoo.

Tecnicamente le sorgenti possibili comprendono oltre ad rss e atom, anche XML, JSON, HTML, CSV, consentendo davvero di accedere a qualsiasi fonte disponibile sul web. L’unico limite è che le fonti non devono avere un file robots.txt che ne impedisca l’accesso.

Alle sorgenti è poi possibile applicare un gran numero di “operatori” che consentono di filtrare, dividere, unire, contare, troncare, verificare l’univocità, ordinare, etc, etc. in modo da ottenere davvero qualsiasi risultato si desideri.

Ma l’aspetto davvero straordinario del servizio è l’eccezionale tool grafico di generazione:

yahoo pipes edit

E’ un ambiente visuale estremamente semplice da utilizzare e allo stesso tempo potentissimo. Con qualche click è possibile selezionare le sorgenti, filtrarle unirle ed ottenere poi un feed che si può pubblicare con estrema semplicità.

Date un’occhiata al box qui a lato: trovate il feed che ho costruito per ottenere news simili ai contenuti di questo blog. In pochi minuti un risultato davvero eccellente!

Comments: Nessun Commento »
Categorie: Attualità, Informatica, Programmazione
Tags: JSON, XML, yhaoo pipes
Commenti RSS
Trackback

Il vicario di Dio sulla Terra ?

Andrea Murru | 6 Giugno 2009

Se il Pontefice fosse il vicario di Dio sulla Terra, Noi, essendo Dio, lo sapremmo.

Con questa lapidaria sentenza, Il Divino Otelma (alias Marco Belelli), intervistato da radio radicale, “dimostra” che Benedetto XVI (che chiama amichevolmente “Lo Stregone Alemanno”) e i suoi predecessori, non possono essere i vicari di Dio sulla Terra.

Ascoltate l’intervista, perché è davvero uno spasso 😉

Comments: Nessun Commento »
Categorie: Religione
Tags: Benedetto XVI
Commenti RSS
Trackback

La sottile differenza tra IP delivery e Cloaking

Andrea Murru | 12 Maggio 2009

Tra le linee guida di google più “profonde” c’è ovviamente il fatto di evitare il cloaking, ovvero di presentare a googlebot contenuti differenti rispetto a quelli presentati ad un normale utente. Ci sono però alcuni casi in cui presentare un contenuto differente sulla base dello user-agent, non è affatto un “imbroglio”, ma è anzi un modo per fornire migliori informazioni o addirittura una necessità in qualche caso.

In particolare può essere necessario fornire contenuti differenti in base al browser utilizzato (ad esempio in mobilità o con una risoluzione molto bassa) o in assenza di plugin (come flash) o ancora in seguito ad informazioni ottenute automaticamente (tramite cookies) sull’utente.

Altro caso tipico in cui una generazione “specializzata” dei contenuti è utilizzata in modo lecito è legato alla lingua o alla localizzazione geografica dello user-agent. Si tratta di tecniche ormai diffusissime che possono essere estremamente utili e funzionali per gli utenti, anche capisco che possano mettere in difficoltà sistemi puramenti automatici di crawling.

Purtroppo però la posizione di google rispetto all’utilizzo di tali tecniche non è completamente chiaro e mette quindi in grosse difficoltà i webmaster che devono valutare (paradossalmente) se implementare funzionalità a vantaggio degli utenti con il rischio di essere penalizzati dai bot convinti che tali funzionalità siano implementate a loro vantaggio.

Tale problematica ha dato luogo a lunghi dibattiti tra gli addetti ai lavori, tra i quali va senz’altro letto questo post su seomoz blog.

Fortunatamente c’è anche un post sul blog ufficiale di google che fa una buona chiarezza sulla vicenda; lo spirito della “legge” di gogle è estremamente ragionevole:

Googlebot should see the same content a typical user from the same IP address would see.

Ovviamente non è chiarissimo cosa voglia dire “the same content”: identico al byte ? identico solo nei contenuti (ad esempio non nella pubblicità) ? uguale in una buona percentuale del sito ? Sinceramente non credo che sia possibile determinare in mo affidabile al 100% nessuna procedura completamente automatica, visto che mi vengono sempre in mente casi “leciti” estremamente difficili da estrapolare. Ma almeno lo spirito mi sembra estremamente condivisibile.

Comments: Nessun Commento »
Categorie: Informatica, Programmazione
Tags: cloaking, google, ip-delivery, SEO
Commenti RSS
Trackback

Tra il codice e la realtà

Spider e valutazione dell’autorizzazione all’accesso in robots.txt 1/3

Questionario sul rapporto con la scienza

I numeri di Google

Ottimo non è buono

Come è stata realizzata la sindone

Cambio dominio

Ciò di cui l'uomo ha più bisogno non può essergli garantito per legge.

Yahoo Pipes – mashup made easy

Il vicario di Dio sulla Terra ?

La sottile differenza tra IP delivery e Cloaking

Contatti

Suggeriti

news da leggere

Lavoro

categorie