lunes, 12 de septiembre de 2011

Internet invisible y web semántica: ¿el futuro de los sistemas de información en línea?

1. Internet invisible

Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público como Google o AltaVista.

Por tal motivo, debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado, pero claramente alejado de la capacidad de sugeridora del término "invisible".
Veamos ahora porqué hay contenidos no indizables en la Web. Hay, al menos tres motivos. En un orden no significativo, podemos decir que el primer motivo son los formatos de los documentos. Los motores de búsqueda fueron creados originalmente para descargar, leer e indizar páginas HTML. Cualquier otro formato era ilegible, es decir, invisible para tales motores.
Los motores de búsqueda no pueden indizar contenidos que se generan de ese modo. Antes de lanzar la búsqueda, el contenido existe en el formato binario (y propietario) de alguna base de datos. Solamente después de la consulta, y como resultado de ejecutar una instrucción como la que muestra la figura anterior, se creará una página en formato HTML.

En el caso de bases de datos como la anterior, los motores de búsqueda pueden proporcionar acceso a la página de inicio (home page) de la misma.
Es decir, podemos acceder a las páginas principales de los sitios web que proporcionan acceso a bases de datos, porque tales principales son páginas HTML convencionales, pero no podemos acceder al resto del sitio a través del motor de búsqueda; y el resto del sitio puede ser (en ocasiones) una enorme base de datos.

Ejemplo de exclusión de motores de búsqueda de un sitio web

<meta name="ROBOTS" content="noindex,nofollow">

Además del protocolo que acabamos de ver, hay otras razones por las cuales los motores no pueden entrar en un sitio. En general, cualquier sitio web que requiera el uso de contraseñas o password quedará fuera de la capacidad indizadora de los motores. Estos sitios pueden ser extranets o servicios que requieren no solamente una suscripción previa, sino que exigen el pago de una cantidad en concepto de abono, etc.



2. Acceder a los contenidos de Internet Invisible

2.1. Formatos no htm

Pese a todo, se puede acceder a cada vez mayores "porciones" de la Web Invisible. Examinemos primero el caso de los formatos de documentos. Afortunadamente, en este aspecto, las fronteras de la Web Invisible no hacen más que retroceder. La tabla siguiente ilustra los formatos que, en estos momentos, son capaces de indizar (o al menos de buscar) dos de los motores más potentes de la Web:

Motor
Formatos
Google www.google.com
Acrobat (pdf)
Postscript (ps)
Word (doc)
Excel (xls)
PowerPoint (ppt)
Texto Enriquecido (rtf)
AllTheWeb www.alltheweb.com
Acrobat (pdf)
Flash (swf)
Word (doc

Vemos que, en el momento de realizar este trabajo, Google busca (y probablemente indiza) 6 formatos distintos de documentos (además, claro, del formato HTML) y AllTheWeb (uno de los alumnos no solamente aventajados, sino respondones de Google) busca y/o indiza 3 formatos distintos.


Bases de Datos
También tenemos indicios de solución al segundo gran "problema" de la Web Invisible: el acceso al contenido de las bases de datos, pero desde motores convencionales.
La solución aquí proviene de este enfoque: si bien es difícil o imposible indizar por parte de los motores de búsqueda el contenido de bases de datos ajenas, no debería haber mucha dificultad en generar interfases de consulta unificadas que enviaran una misma consulta a diferentes bases de datos desde, por ejemplo, una misma página web. El modelo en este caso son los multibuscadores, también (mal) llamados metabuscadores.

2.3. Sindicación de contenidos
Otro ejemplo sumamente interesante y buena muestra de lo que, probablemente, nos espera en los próximos años es el motor de búsqueda Scirus (www.scirus.com). Es aún pronto para saber si Scirus será un experimento efímero, como tantos otros proyectos esperanzadores en la web (esperemos que esta vez no) o solamente un avances de una nueva generación de sistemas de búsqueda en línea que rompa, de una vez por todas, las barreras de la Web Invisible.

La web semántica 3.1. Definiciones
Ante todo, veamos la definición oficial de web semántica (semantic web).

Dos cosas sobre la definición anterior. En primer lugar, como se puede observar no dice absolutamente nada: ¿qué significa que alguna cosa sea "la representación de datos en la World Wide Web"? Nada. El resto de la supuesta definición es peor. Abandona claramente el intento de decir lo que es la web semántica (dado el antecedente, tal vez sea lo mejor) y se limita a señalar, entre otras cosas sumamente informativas "que integra una variedad de aplicaciones"(!).

3.2. Estado actual
Si la web semántica no existe, ¿qué es en estos momentos? De momento, es el nombre de una aspiración; el nombre de un objetivo muy ambicioso que, de cumplirse, cambiaría de forma radical la Web tal como la conocemos hoy. ¿En qué consiste esta aspiración? Ni más ni menos que en conseguir que las páginas que forman la Web dejen de ser simples cadenas de caracteres para los ordenadores y se conviertan en textos con sentido, es decir, texto provisto de semántica, tal como, de hecho, lo es para los seres humanos.

3.3. Infraestructura
Los medios con los cuales se supone que se conseguirá la web semántica son los siguientes: primero, un nuevo lenguaje de codificación de páginas, un nuevo lenguaje de marcado. Este lenguaje, como es sabido, se denomina XML. Con XML se pueden diseñar lenguajes de marcado muy estructurados y muy explícitos en los cuales, en lugar de etiquetas como <b> e <i>, habrá etiquetas como <título>, <subtítulo>, <capítulo>, <subcapítulo>, <autor>, <institución>, <ciudad>, etc.

3.4. Posibilidades reales a corto y a medio plazo
El lector ya habrá deducido que, al menos según la opinión de quien esto escribe, las posibilidades a corto y medio plazo de la web semántica son reducidas.
El problema con la web semántica, tal como la presentan algunos de sus defensores (notablemente, el W3 Consortium, que parece haberse especializado en arrojar confusión sobre todos sus proyectos recientes) es la inmensa cantidad de ingenuidad o de ignorancia que exhibe. En comparación, los programas contra la pobreza y a favor de los derechos humanos son obras maestras de pragmatismo (y sabiduría).

3.5. ¿Labor de ONG?
¿Cuál es el problema general, casi diríamos filosófico, de la web semántica? Si no se produce algún cambio pronto, el problema de la web semántica es que no proporciona ningún beneficio individual, aunque promete grandes beneficios sociales.
Lo anterior es una definición del fracaso. La historia nos dice que casi siempre que para alcanzar algún objetivo socialmente deseable se requiere un sacrificio individual, el fracaso estará servido. Según los economistas (no es que la economía tenga un historial muy brillante de predicciones, pero vamos a escucharlos por si acaso), es casi imposible conseguir una sociedad viable en base a esperar que los ciudadanos, espontáneamente, vayan contra sus intereses individuales.










No hay comentarios:

Publicar un comentario