MÁS ALLÁ de Google… Los caminos de la Inteligencia Colectiva – Entrevista con Pierre Lévy

Visit Multitud

Traducción: Diego L. Sanromán

El buscador Google no es más que una pieza entre otras de la cuestión mucho más vasta de la navegación y los modos de búsqueda en Internet. Históricamente ha desempeñado un papel más importante por haber sido el primero en integrar las elecciones de los propios internautas en los resultados de sus peticiones por medio de los vínculos hipertextuales que dirigen de un sitio a otro. Ha sido igualmente uno de los pioneros de lo que se llama “cloud computing”, distribuyendo por el tejido de la Red los datos y demás capacidades tecnológicas a los que cada internauta tiene acceso. El más famoso de los motores de búsqueda, sin embargo, alcanza hoy sus límites, en primer lugar, como consecuencia de su posición dominante. Y en segundo lugar, y sobre todo, como consecuencia de las preferencias que comparte con la instancia de gobernanza de la Web, el World Wide Web Consortium o W3C (al que pertenece, al igual que Yahoo o Microsoft). Los estándares de la Web, en efecto, evolucionan poco, como si estuvieran bloqueados por las constricciones comerciales de los “ingresos por clic”. ¿Qué queda, pues, de ese camino hacia cada vez más “inteligencia colectiva” que ha sido uno de los combustibles esenciales de Internet? Pierre Lévy es filósofo y, a la vez, director de investigación, en Canadá, de un proyecto de “metalenguaje” que permitiría a los internautas “codificar el sentido” y no sencillamente los datos. O, en otras palabras, llevar a cabo búsquedas mil veces más afinadas en el océano de la Red. Más allá de la (necesaria) crítica de Google, ¿no resulta indispensable llevar a cabo investigaciones en la confluencia entre la informática y las ciencias sociales con el fin de aumentar ese potencial de inteligencia que sigue siendo Internet? Libre intercambio…

Multitudes: En su opinión, ¿cuáles son o siguen siendo hoy en día las principales cualidades de un motor de búsqueda como Google?

Pierre Lévy: La principal cualidad de Google está en reflejar, aunque sea de manera muy grosera, la inteligencia colectiva de los usuarios de la Web. En efecto, el éxito de Google se ha construido, desde su origen en 1998, sobre el algoritmo de ordenanción de páginas web inventado por Larry Page y Sergey Brin. Según dicho algoritmo, cuyo nombre es “PageRank”, los sitios web correspondientes a una petición se ordenan en función de la cantidad de vínculos que apuntan hacia tales sitios, concediendo un peso más importante a los vínculos que proceden de sitios que, asimismo, disponen de un mayor número de vínculos. Esto supone hacer partícipes a los internautas que lanzan hipervínculos a la Web en la definición del orden de respuestas del motor de búsqueda. Antes de la innovación de Page y Brin, se ordenaban las respuestas en función de la frecuencia de los términos buscados en los sitios. En suma, los motores de búsqueda “pre-Google” estaban únicamente orientados hacia los documentos. Google fue, de hecho, el primer motor de búsqueda que hizo entrar la computación social en su ecuación. La segunda razón del éxito de Google fue (y sigue siendo) su extraordinaria ambición computacional. La loca idea inicial del proyecto era registrar automáticamente la totalidad de la Web en una sola base de datos, base sobre la cual se podrían, a continuación, llevar a cabo cálculos estadísticos a una escala muy grande. La infraestructura técnica de Google descansa en decenas de inmensos centros de cálculo dispersos por todo el planeta, cada uno de los cuales concentra centenares de miles de servidores de bajo precio interconectados mediante fibra óptica y funcionando con Linux. Dichos centros están directamente conectados a los backbones de Internet y consumen cantidades fenomenales de electricidad. La disponibilidad de estos centros de cálculo ha impulsado a Google a proponer una multitud de servicios de cloud computing: vuestros datos, vuestros programas, vuestras infraestructuras de cálculo ya no están en vuestros ordenadores, sino “en algún lugar de la red”, inmediatamente disponibles para cualquier conexión a Internet. El cloud computing, del que Google y Amazon son los principales pioneros, es, ciertamente, una de las principales tendencias de la cibercultura. La memoria y el tratamiento de la información se convierten así en ubicuos.

Multitudes: A la inversa, ¿cuáles son los fallos esenciales –o al menos, los límites más importantes- de Google hoy en día?

P. L.: Creo que el “error” resulta visible para todo el mundo. Es bastante inquietante que una sola compañía gestione la mayor parte del acceso de los internautas a la memoria digital mundial, sobre todo si uno repara en que sus algoritmos son secretos comerciales y, en consecuencia, opacos. Aún más, Google tiene un acceso directo a los datos y a las actividades de sus usuarios de cloud computing, incluidas las cuentas de e-mail (gmail). El conjunto de tales datos se emplean hoy en día principalmente con fines de marketing, pero todas las censuras, manipulaciones comerciales y colaboraciones con los servicios secretos (estadounidenses, chinos u otros) son posibles. En cuanto a los límites, es preciso comprender que Google no es el único en cuestión. Es el conjunto de la búsqueda y del filtrado de la información en Internet el que se encuentra hoy en día en su prehistoria. Para empezar, las búsquedas todavía se llevan a cabo principalmente mediante cadenas de caracteres (las “palabras”), en lugar de mediante conceptos (que pueden expresarse de muy diversas maneras). Además, el carácter multilingüe de la memoria mundial se gestiona con no pocas dificultades y las traducciones automáticas son de una mala calidad notoria. Los algoritmos de búsqueda son generalmente los mismos para todo el mundo, mientras que podrían imaginarse modos de filtrado mucho más “personalizados”. Finalmente, el valor de la información depende de un gran número de parámetros contextuales o de “puntos de vista” y debería poder calcularse según juegos de inteligencia colectiva extremadamente variados. Este último problema apenas ha aflorado en las investigaciones contemporáneas mediante buscadores como Google. 

Multitudes: Se oye hablar cada vez más de lo que se llama la deep Web, esto es, la Web invisible, oculta, la de los archivos, bases y bancos de datos, pero también la de cierto tipo de portales y bibliotecas en línea o de pago, a los que los buscadores de hoy no darían cobertura. Ciertamente, Google indexa, por ejemplo, los ficheros “.pdf” o “Excel”, pero se diría que está muy lejos de cubrir, en 2009, la totalidad de la Web en su escaneado mensual y en la respuesta a las peticiones. Recuerdo, por otra parte, un estudio de la sociedad Bright Planet, hace 8 años, que afirmaba que los documentos presentes en la Web eran, en realidad, 500 veces más que los inventariados en los motores de búsqueda. ¿Cómo está la cuestión hoy en día?

P. L.: No soy un especialista en la “deep Web”, pero puesto que los motores de búsqueda recogen los datos de la Web mediante el seguimiento de los vínculos por autómatas esta claro que: todo el contenido que no está hipervinculado, y en particular el contenido de las bases de datos (incluso si tales bases son accesibles a través de la Web), no se encontrará en las respuestas de los motores de búsqueda… Pero su evaluación es tal vez excesiva. Por definición, la cosa es muy difícil de medir. Pienso, siguiendo a especialistas actuales, que la relación entre Web de superficie y Web profunda es del orden de uno (en cuanto a la superficie) a cincuenta o cien (en cuanto a la profunda)… ¡que, en todo caso, es enorme!

Multitudes: En el texto que publicó en Multitudes en la primavera de 2008, subrayaba usted el problema que representa ese “verdadero poder activo y centralizado (que) detentan las empresas del World Wide Web Consortium (W3C), que reúne a Google, Yahoo, Microsoft y algunas otras”, y explicaba que dicho consorcio bloquea la evolución orientándola en su provecho. ¿Podría precisar esta crítica y decirnos si sigue tan de actualidad como hace un año?

P. L.: Es preciso comprender que los grandes financiadores del W3C tienen como objetivo principal rentabilizar sus inversiones y rendir el máximo de dividendos a sus accionistas, y no desarrollar la inteligencia colectiva de la humanidad. Si sus objetivos pasan por un aumento de la inteligencia colectiva, tanto mejor: a priori no están en contra; si no, ¡qué se le va a hacer! El resultado es una orientación de la investigación muy centrada en lo que se llama el “Click stream marketing” y, consecuencia, en los ingresos por clic. Son estas grandes empresas las que tienen el mayor poder sobre la orientación de la definición de los estándares publicados por el W3C. Por otra parte, las directrices de innovación siguen basándose en: los formatos de datos estandarizados como HTML o XML; los sistemas e inferencias lógicas inspirados en la inteligencia artificial, basados en “ontologías” expresadas en esos mismos formatos estándar (en el dominio de la informática, las ontologías son esencialmente jerarquías de clases y de sub-clases de conceptos, así como redes formales de relaciones entre clases, en tanto que los conceptos siguen expresados en lenguajes naturales); los métodos de análisis estadístico a gran escala, que se han convertido en una especialidad de Google. A mi parecer, el problema está en que las directrices de investigación alternativas o complementarias a estos modos de innovación estándar son excluidas implícitamente, incluso en los departamentos de informática de las universidades.

Multitudes: ¿Acaso es posible hacerlo de otro modo?

P. L.: En el ámbito matemático, sería sin duda necesario explorar formalismos distintos de los de la lógica y la estadística. Aunque la teoría de grafos se utiliza cada vez más, queda todavía mucho trabajo que hacer por este lado, por no hablar de lo que sería una topología o una geometría sociales del sentido. Yo mismo trabajo con un matemático (Andrew Roczniak) sobre un “grupo de transformación” complejo, capaz de representar los fenómenos de inteligencia colectiva.

Multitudes: ¿Existen orientaciones de investigación más o menos bloqueadas por quienes hoy en día encarnan la gobernanza de la Red? ¿Existirían tabúes sobre el tema de la evolución de los motores de búsqueda?

P. L.: El mayor tabú pesa probablemente sobre la invención de nuevos sistemas simbólicos que saquen partido de la potencia de cálculo y de la memoria prácticamente infinita abiertas hoy a los internautas. Funcionamos como si la caja de herramientas simbólicas que necesitamos para los siglos que vienen no debiera contener más que los lenguajes naturales y los sistemas de signos desarrollados por la cultura antes de la existencia de una memoria mundial digital y ubicua. Finalmente, nuevos modos de computación social y de organización de la inteligencia colectiva emergen de la actividad espontánea de los internautas. Las “start-up” y las grandes compañías cabalgan la ola, mientras la investigación en ciencias humanas y sociales se contentan con ir detrás y observar, siempre con un poco de retraso, en lugar de innovar trabajando codo con codo con la investigación en informática. Y ni siquiera evoco ahora ese oscurantismo anti-técnico tan potente en Francia, que incluye a los medios de investigación en ciencias humanas. Tales directrices de investigación, complementarias a las que hoy en día están en primer plano, deberían ponerse al servicio de una gestión participativa y transcultural de los conocimientos orientados hacia el desarrollo humano, antes que servir a estrechas finalidades de “marketing”. Pero no quisiera simplemente dedicarme a ese deporte nacional francés que consiste en criticar a los americanos y a las empresas capitalistas. Me han llamado de todo en Francia (en particular, en los medios “de izquierdas”) porque, en mi libro de 1994 [1], hablaba de inteligencia colectiva en el ciberespacio, cuando la cosa se ha convertido hoy en día en una evidencia ampliamente compartida. De igual manera, mi libro de 2002 [2] sobre la ciberdemocracia y la explosión de la libertad de expresión en la Web ha sido arrastrado por el fango por los periodistas franceses. Sin duda, algunos de ellos eran lectores de Virilio, de Finkielkraut y de Wolton, mientras hoy todo el mundo se extasía con la Web 2.0 y el papel de los medios sociales en la elección de Obama… Con raras excepciones (Serres, De Rosnay, Moulier-Boutang, Stiegler), la institución intelectual francesa, presa de su pasión crítica exclusiva, me parece profundamente “ciega ante el futuro”.

Multitudes: Se diría que la W3C y Google, en particular, trabajaban en la Web semántica y en herramientas adaptadas a dicho tipo de Web… ¿Podría recordarnos qué es la Web semántica y decirnos qué pasa con la evolución hacia la Web semántica y las herramientas adaptadas?

P. L.: Uno de los síntomas más reveladores de los límites de la supuesta “Web semántica” es su reciente cambio de nombre. Tim Berners-Lee y su equipo hablan hoy de “Web de datos”. La idea principal es que la Web actual es principalmente una “Web de documentos”, de documentos que están conectados mediante hipervínculos. La finalidad de la Web de datos es realizar una integración de la memoria mundial a un nivel más abstracto que la Web de documentos: el nivel de los datos a partir de los cuales los documentos se producen, cada vez más, de forma automática. El formato RDF (Ressource Description Framework), que se corresponde con esta visión, permite descomponer la descripción de las informaciones en la Web en conjuntos de tripletes:

1) el tema, o sea, el recurso que hay que describir; por ejemplo, un texto y su dirección URL (Uniform Ressource Locutor);

2) la propiedad; por ejemplo, “el autor del texto”, representado también por una dirección URL;

3) el objeto; por ejemplo, “Madame Dupont” o “El estudio de los nuevos tipos de cultivo del calabacín”, también eventualmente representado por una URL. A continuación, los conjuntos de tripletes RDF pueden ensamblarse en grafos complejos y ser objeto de cálculos lógicos automáticos.

La finalidad más o menos explícita de la Web de datos es transformar Internet en una sola base de datos virtual por medio de la codificación en formato RDF de todos los documentos, o más bien de todos los datos, incluso si sabemos que siempre existirá una multitud de bases de datos reales diferentes. Las ontologías expresadas en el lenguaje OWL (Ontology Web Language), es decir, para simplificar de forma algo excesiva, las relaciones entre ideas y conceptos que se encuentran en Internet, permiten por otra parte realizar “razonamientos automáticos” sobre conjuntos de datos codificados en RDF, datos que se corresponden con el dominio de conocimiento o de práctica particulares que es descrito por una ontología.

Multitudes: ¿Qué más aporta esta Web de datos, en comparación con la Web tal como la conocemos hoy?

P. L.: Se supone que hace la navegación (dicho de otro modo, el “surf” y, en consecuencia, el trabajo de investigación) a la vez más fácil, más pertinente y más completo, sin permitir, con todo, husmear en la integridad de la “deep Web” de la que hablábamos antes.

Multitudes: En concreto, y en particular para Google, ¿es ya una realidad? ¿Navegamos, sin saberlo, por esta Web de datos?

P. L.: Las tecnologías de la Web de datos, puesto que se habla cada vez menos de Web semántica, son adoptadas cada vez más por los organismos de investigación para la codificación de datos científicos, pero también por las empresas para la gestión liberada de la información. Igualmente, empezamos a ver aparecer en la Web aplicaciones comerciales para el gran público (por ejemplo, el sitio Twine.com). El acercamiento de Google es muy pragmático: mientras los cálculos estadísticos sobre el contenido de las páginas web satisfaga a los usuarios, no se lanzan a la Web de datos, pero desde el momento en que las técnicas de la Web de datos ofrecen resultados comerciales interesantes, se sirven de ellas.

Multitudes: Afirma usted que el límite de la Web semántica, o más bien habría que decir ahora de la Web de datos, está en que no permite “codificar el sentido”. ¿Podría aclararnos esta idea?

P. L.: Se trata evidentemente de un problema muy complejo que es difícil de tratar de manera exhaustiva y precisa en una entrevista de esta naturaleza. Digamos que la informática hizo un gran progreso cuando logró codificar las imágenes en binario (los píxeles), lo que ha permitido tratar automáticamente las imágenes y ha abierto el camino a la fotografía y al vídeo digitales, a los programas de producción de dibujos animados o a los videojuegos, así como a todos los Photoshops posibles e imaginables. Del mismo modo, hoy existen distintos formatos de codificación digital de la música que han abierto el camino a métodos informatizados de composición, de sampleo, de remezcla, de síntesis, de grabación y de intercambio (en perjuicio, claro, de los editores). Insisto en el hecho de que la codificación digital universal de la imagen y del sonido puede acomodarse a cualquier tradición visual o musical, y en que tal codificación ha abierto el camino a múltiples mestizajes, incluso a nuevas tradiciones. No se trata en absoluto de una uniformización esterilizante, bien al contrario. Pues bien, yo busco, en la misma línea, una codificación digital del sentido, cuyo efecto podría ser un aumento extraordinario de la potencia de expresión y de interpretación en manos de los internautas y de sus inteligencias colectivas.

Multitudes: Dicho de otra manera, ¿cuál son las limitaciones de la Web de hoy en día y, más allá, de la Web de datos a la que usted se enfrenta?

P. L.: Simplificando, todo lo que tenemos hoy es una codificación digital de caracteres (alfabéticos o de otro tipo), gracias al estándar unicode llamado “utf8”, así como una codificación digital de ciertas relaciones lógicas entre ciertas cadenas de caracteres (las ontologías de la Web de datos). Lo que yo propongo es un sistema universal de codificación de ideas y conceptos independiente de los lenguajes naturales, como los píxeles son independientes de los estilos visuales y la norma mp3 es independiente del lenguaje musical utilizado.

Multitudes: Pero, ¿qué es lo que esto nos aportaría?

P. L.: Un sistema universal de codificación de ideas y conceptos como éste otorgaría un fundamento semántico a las ontologías y les permitiría comunicarse mucho más fácilmente de lo que lo hacen hoy. Contendría de manera intrínseca una representación formal (calculable automáticamente) de las relaciones entre los conceptos en diferentes niveles de complejidad. Además, se trataría de un metalenguaje abierto, que permitiría la añadidura hasta el infinito de nuevos conceptos y de nuevas relaciones entre conceptos. Se trataría, en suma, de construir una Web de conceptos (o una Web de metadatos), por encima de la Web de datos, pero en absoluto contra ella, desde luego. No hay que olvidar tampoco que una inmensa cantidad de metadatos no está organizada mediante ontologías. Pienso en particular en los “tags” producidos espontáneamente por los internautas en sus blogs, en aplicaciones como Flickr, Delicious o YouTube, o incluso en los “hashtags” utilizados en Twitter. Si esos tags espontáneos, es decir, esa especie de etiquetas de definición de contenidos, estuvieran codificados como yo propongo, se volverían automáticamente traducibles a todas las lenguas (por medio de un diccionario colaborativo) y permitirían modos de búsqueda, de navegación, de filtrado, de síntesis informativa y de coordinación de inteligencias colectivas inimaginables hoy en día.

Multitudes: Usted mismo trabaja, como investigador en Canadá, en un lenguaje, el IEML (“Information Economy Meta Language”), que podría paliar ciertas limitaciones de motores de búsqueda como Googgle, y también de dicha Web de datos. ¿Podría decirnos algunas palabras al respecto?

P. L.: El IEML es, precisamente, una primera tentativa en la dirección que acabo de indicar. En primer lugar, pensé en este metalenguaje como en una suerte de sistema de coordenadas de un espacio abstracto, al que llamo espacio semántico, en el que se despliegan los fenómenos de la inteligencia colectiva humana.

Multitudes: ¿Podría precisar su idea, en particular, a través de eso que usted llama la inteligencia colectiva humana?

P. L.: Mi intuición fundamental es que existe una “naturaleza” (fractal, hipercompleja) de la inteligencia colectiva que ahora podemos explorar y cartografiar de forma dinámica, puesto que tenemos una memoria mundial técnicamente unificada (alimentada por los flujos de datos y de metadatos de cada cual) y una inmensa potencia de cálculo descentralizada a nuestra disposición. Todo lo que nos falta es el sistema simbólico unificador (sin ser uniformizante) adecuado a dicho objetivo. La inteligencia colectiva humana es una naturaleza (única, universal), pero es una naturaleza infinita en sus virtualidades de diversidad cualitativa, de diferenciación evolutiva y de complejización. Además, cada zona del espacio semántico infinito, que contiene la inteligencia colectiva, es, en potencia, un punto de vista interpretativo original del conjunto: todos los puntos son centros virtuales. El IEML trata de traducir esta visión a un dispositivo práctico.

Multitud: ¿En qué lugar se encuentran ahora?

P. L.: El objetivo es que este metalenguaje pueda ser utilizable dentro de algunos años. No tengo prisa; sobre todo, me interesa que los fundamentos sean sólidos. La finalidad última del espacio semántico abierto por el IEML es permitir que los procesos de inteligencia colectiva se representen a sí mismos y favorecer así una conciencia reflexiva de la inteligencia colectiva humana tal como se desenvuelve y se complejiza espontáneamente en el ciberespacio. Es fácil representarse las repercusiones en el desarrollo humano… El IEML permitirá distinguir las informaciones en función de su contenido y de su situación en el documento: atajo de comienzo, atajo de fin, etc. La base de la teoría matemática ya está planteada, pero todavía no ha sido publicada. Se ha construido un núcleo léxico a partir del cual generar, mediante colaboración, el diccionario multilingüe. Un parser (es decir, una herramienta de análisis sintáctico), en vías de construcción, permitirá pasar automáticamente de una representación corriente a una representación binaria y a una forma XML compatible con Internet y con sus evoluciones más recientes. Una base de datos orientada hacia IEML está siendo probada, y ciertas herramientas de traducción semi-automática de tags y de ontologías dirigidas a IEML están en vías de desarrollo… [3]

Multitudes: ¿Puede darnos una idea de la amplitud del proyecto?

P. L.: El grupo de investigación sobre el IEML es restringido, aunque internacional. Hoy en día trabajo con equipos franceses (Labo paragraphe de Paris-8), coreanos (Universidad INHA), brasileños (PUC Sao Paulo) y americanos (Michel Biezunski y Steve Newcomb, que son investigadores y asesores independientes). Está previsto un libro que aparecerá en Hermes-Sciences, primero en francés y después traducido al inglés. Sé perfectamente que todo esto (estas investigaciones sobre nuevas dimensiones de la inteligencia colectiva, bastante más allá de un buscador como Google) parecerá a muchos una utopía nebulosa, incluso algo de ciencia ficción. Pero he aprendido desde hace tiempo a no fiarme de la opinión…

Entrevista realizada por Ariel Kyrou. VERSIÓN EN FRANCÉS.

[1] Pierre Lévy, L’intelligence collective, Paris, La Découverte, 1994. Texto en línea (Español).

[2] Pierre Lévy, Cyberdémocratie, Paris, Odile Jacob, 2002. Traducción castellana en GOOGLE LIBROS.

[3] Para saber más sobre el IEML: http://www.ieml.org/
 

Un pensamiento en “MÁS ALLÁ de Google… Los caminos de la Inteligencia Colectiva – Entrevista con Pierre Lévy

  1. webpositer

    I’ve been exploring for a bit for any high quality articles or weblog posts on this sort of area . Exploring in Yahoo I finally stumbled upon this web site. Reading this information So i am happy to show that I’ve a very good uncanny feeling I came upon just what I needed. I so much undoubtedly will make certain to don?t omit this site and give it a look on a continuing basis.

    Responder

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s