I Key-point del Semantic Web di oggi

Prendo spunto da una intervista a Tim Berners Lee fatta da un giornalista di Talis, per commentare alcune frasi sparse estratte dal transcript e raccordarlo con le nostre attivita’ sul Semantic Web.

Dal transcript dell’intervista del 7 febbraio 2008 a Tim Berners Lee da parte di Paul Miller di Talis.

TBL chiarisce innanzi tutto il campo di azione del Semantic Web, che viene spesso visto come “estrazione di concetti dai testi”, cosa vera ma non rappresentativa ne’ esaustiva, ed indica che l’associare i dati (testi o dati nel senso piu’ largo) ai concetti  chiave di un’azienda o di un mondo piu’ largo puo’ essere utile e praticabile con profitto in moltissime situazioni diverse per scopi diversi. Cito:

“I think the Semantic Web is such a broad set of technologies and is going to do so many different things for different people. It is really difficult to put it on one thing. What are the steps necessary right now for the life sciences community to be able to use it for their data about proteins is probably different from which steps do we need to be able to get interoperability between repositories of library data and museum data.”
C’e’ poi una frase che mi fa particolarmente felice, perche’ conferma la visione che in Gruppoimola abbiamo sempre avuto delle tecnologie semantiche, che abbiamo interpretato come un vantaggio immediato nell’integrazione intelligente di forme diverse di dati, che permette di integrare dati da fonti diverse secondo una logica comune. Abbiamo usato queste tecnologie per integrare dati provenienti da repository diversi (file system, WebDav, blog, wiki, database) e permetterne navigazione, ricerca, elaborazione e modifica in ambienti diversi da quelli in cui i dati risiedono fisicamente, come ad esempio applicazioni e portali. Ecco la frase:

“So the Semantic Web is about integration, it is like getting power when you use the data, it is giving people in the company the ability to do queries across the huge amounts of data the company has.”
Si accusa poi di un errore nella comunicazione riguardo a cosa il Semantic Web sia, dicendo che sarebbe stato molto piu’ veloce da comprendere se avesse detto che era un approccio per la “enterprise and intra-enterprise data integration” , che e’ esattamente la visione che abbiamo praticato da quattro anni a questa parte:

“….I think, that really what we have… the message has been… it was looking too far into the future. ….
… the gain from the Semantic Web comes much before that. So maybe we should have written about enterprise and intra-enterprise data integration and scientific data integration. So, I think, data integration is the name of the game. That’s happening, it’s showing benefits. Public data as well; public data is happening and it is providing the fodder for all kinds of mashups.
So, what we should realize is that the return on investment will come much earlier when we just have got this interoperable data that we can query over.”
E alla domanda di che libro dovrebbe scrivere ora, dopo la strada gia’ fatta dalle tecnologie semantiche, cioe’ di quale e’ l’argomento da fissare e organizzare, dimostra di nuovo di essere sui nostri stessi binari, parlando esplicitamete di architettura con cui il Semantic Web si deve integrare con il resto dell’esistente:

“I would like to write a whole bunch of technical books about actually practically how to do Semantic Web things. I’d like to write a book about Semantic Web Architecture. And I’d like to write a book sort of painting the path for people in the industry, because I get a lot of questions along the lines of “OK, I read the specs, OK, but here I am, I am the CIO of a company, what does it mean for us now, what should we do?””
Non casualmente ci siamo gia’ occupati di questo argomento e ne parliamo al JavaOne.
Il tema e’ una architettura standard di integrazione per produrre metadati e dati semantici al fine di produrre semantic web e semantic integration.

TBL enfatizza piu’ volte che non vanno creati nuovi dati in forme nuove per avere il Semantic Web: il modo di trarre vantaggio dal Semantic Web c’e’ gia’ adesso e sta nell’utilizzare dati che gia’ esistono in forme eterogenee, e’ nell’integrazione dei dati attuali, presenti nei database, nei file system, nei dati interni delle applicazioni (CRM, ERP, sistemi documentali, wiki, blog, etc.):

“So, where is the data going to come from? It’s already there. It’s in databases. So, most of this data is in databases. Often the data is already available through some kind of a Web interface.”

C’e’ un punto dell’intervista in cui TBL si sofferma sul modo in cui si produce l’RDF (cioe’ il dato standard semantico a fronte del dato proprietario nel database), che ci porta proprio sul caso d’uso dei componenti JBI per il Semantic Web, soluzione che supera la via che TBL propone, e che secondo me e’ incongruente con la visione si architettura semantica detta sopra, perche’ troppo legata alla scrittura custom di codice:

“…. Well, there’s a couple of ways of doing it. Say that you’ve got a database-type website. One way to do it is to look at it… let’s stay with the printers, for example. When you look at the website you notice there’s a page on the printer, which has got the specifications, and it’s got a little table of the properties of the printer. And there’s a PHP script somewhere, which produces that.
So, you get somebody who understands these things to write another PHP script which is totally parallel, which just expresses the same information in RDF. That’s all. “

Lo scopo dei nostri BC JBI e’ proprio quello di non dover scrivere quel codice ma di configurare il componente sull’ESB perche’ cio’ avvenga automaticamente quando si inseriscono, modificano o cancellano i dati sul database o nel repository proprietario, creando cosi’ una architettura di integrazione semantica.

Commentero’ successivamente la seconda parte dell’intervista, che e’ lunghissima e densa di argomenti interessanti da approfondire.

Claudio Bergamini