Búsqueda semántica
31/05/2007Todo el mundo tiene su propia teoría sobre por qué google desbancó al resto de buscadores con su llegada. Algunos lo achacan a cuestiones de mercado, inversión, usabilidad… Yo, por supuesto, también tengo la mía. Fue por su utilidad: por tener un algoritmo mucho más eficaz que la competencia del momento, ofreciendo resultados más relevantes para las búsquedas.
En el tema de los algoritmos de búsqueda los detalles son cruciales. Que dos buscadores diferentes utilicen un mismo modelo general (lógica difusa, indización de semántica latente, procesamiento del lenguaje natural…) no implica que sus resultados tengan la más mínima similitud en términos de relevancia. De hecho, los detalles es precisamente lo que ningún buscador revelará. Si google basara todo su potencial de recuperación en el más que conocido algoritmo de pagerank, dudo que fuera el buscador más utilizado.
Es difícil prever a corto o medio plazo que un buscador pueda destronar a google, pero siempre es interesante observar qué nuevas propuestas surgen, y en qué basan su lógica de funcionamiento. Uno que lleva tiempo despertando mi interés es Hakia. Con un diseño feo de narices, y aunque mostrando resultados en colaboración con Ask, incorpora ciertas técnicas de procesamiento del lenguaje natural que, hasta donde he probado, ofrece resultados interesantes.
El Dr. Riza C. Berkan, fundador de Hakia, ofrece algunas pistas (pocas) sobre lo que entienden por búsqueda semántica: Semantic Search: An Antidote for Poor Relevancy. Quizá solo se trata de humo, ¿o quizá no?.
PD: Los comentarios y las respuestas de Riza también merecen un vistazo.

Hay 10 comentarios en esta entrada:
Si el algoritmo de Google destaca por su relevancia, más que eficiente (todos los algoritmos lo son), es eficaz, ¿no?
A mi, personalmente, lo de los buscadores basados en lenguaje natural por el momento no me parece más que humo. Se trata de un campo de investigación en el que se lleva mucho tiempo trabajando y de momento no se esperan resultados interesantes a corto plazo.
Si es cierto que hakia y powerset están haciendo mucho ruido, pero por ejemplo el uso que hace Hakia de la información semántica no es muy distinto, por no decir que es igual, del uso que se hizo de wordnet en los años 90 para recuperación de información, y la verdad es que los resultados fueron bastante pobres.
Todo será estar pendiente, pero no yo creo que no hay que dejarse distraer por campañas de marketing que van más destinadas a conseguir financiación que a demostrar que aquello realmente funciona más allá de unos cuantos ejemplo cableados.
Un contrapunto interesante a la entrevista de Riza enlazada en el post es:
http://ciir.cs.umass.edu/~fdiaz/irblog/?p=18
Por otro lado, creo que si alguien puede conseguir avances en este sentido son los grandes buscadores quienes llevan tiempo contratando gente especielizada en procesamiento de lenguaje natural, como por ejemplo Dekang Lin creador de Minipar.
Hola a los dos,
Jorge: Efectivamente, tienes toda la razón. Ya lo he corregido.
Jose: Es muy posible que solo se trate de marketing y humo. Habrá que seguir pendiente para ver cómo evoluciona. Si quizá, en parte, sigue despertando mi interés es porque su fundador es un investigador con algunas publicaciones que han tenido bastante impacto, pero eso por supuesto no asegura nada. Como bien dices, son muchos los investigadores que están contratando los grandes buscadores. Muchas gracias por el link, no lo conocía.
un saludo!
En eso tienes toda la razón, Yusef, la gente que ha fichado Hakia y Powerset son muy potentes en el área de PLN desde hace años.
Por lo que yo sé, gracias en gran parte a Enrique Torrejón, de Bitext, que sabe un huevo de estas cosas, Hakia ha fichado a Victor Raskin, que ha trabajado con Sergei Nirenburg con el cual comparte la autoría del libro Ontological Semantics. Ambos trabajaron en el proyecto Microkosmos, que es una macro-ontología, destinada principalmente a traducción automática donde la clave se basaba en separar al máximo los conceptos, la semántica, del léxico con que se representan, con el objetivo de superar las limitaciones aparecidas con el uso de Wordnet.
Por otro lado, también han fichado a Yorick Wilks, autor de Electric Words (un libro que a mi me encantó en su día y que me costó encontrar una barbaridad, así que si a alguien le interesa lo alquilo a ver si recupero la pasta que me gasté en él
. Bromas a parte, las investigaciones de esta gente permiten hacerse una idea bastante buena de por donde están tirando en Hakia.
http://en.wikipedia.org/wiki/Victor_Raskin
http://www.dcs.shef.ac.uk/~yorick/
http://ebiquity.umbc.edu/person/html/Sergei/Nirenburg/
Por otro lado la gente de Powerset parece ser que ha fichado a varios de los popes que han trabajado durante un cerro de años en Xerox Parc en Palo Alto, con lo cual también es fácil imaginar por donde tiran.
http://www.parc.xerox.com/about/pressroom/news/2007-02-09-powerset.html
Sea de lo abstracto a lo concreto o de lo concreto a lo abstracto, ambos enfoques tienen años y en mi opinión aún tienen un largo camino que recorrer para demostrar que tienen algo que aportar a la Recuperación de Información tal y como se ha definido esta disciplina en los últimos 40 años. A lo mejor lo que proponen es un cambio de paradígma en IR, y se olvidan de las bolsas de palabras, yo no lo sé, pero en lo que también coincido contigo es que merece la pena no perder de vista estos nuevos enfoques.
Para terminar con esta perorata indecente fruto de un sábado por la noche sin ganas de ponerme con la tesis, creo que también es interesente fijarse en que el enfoque de los grandes buscadores (Google, Yahoo!, Live, etc) en PLN tiene una perspectiva más estadística (más ingenieril), correspondiente a la escuela de E. Charniak y compañía en la universidad de Brown.
http://www.cs.brown.edu/~ec/
De esta forma lo que tenemos al final son tres carreras que se desarrollan en paralelo:
1- Modelización semántica a través de Ontologías (Microkosmos). Hakia
2- Lingüística Computancional desde la perspectiva de los lingüístas, con sus gramáticas y reglas codificadas en detalle: Xerox, Powerset.
3- PLN estadístico. Google, Yahooo!, Live, etc
Quien ganará, yo no lo sé, pero si tuviera que apostar lo haría por la opción tres, o por un combinación de todas ellas, pero no veo a las opciones 1 y 2 desbancando a la tercera, por lo menos no a corto plazo.
En fin no me enrollo más, esto es lo que pasa por no tener blog, que uno se dedica a dar la lata y escribir en los de los demás
sorry si me paso de plomo, pero reconozco que este tema me interesa mucho.
Un saludo, y enhorabuena por el blog
jose
wow, jose. A mi también son temas que me apasionan, y no puedo más que darte las gracias por toda esta información.
Creo que todo lo que comentas es demasiado interesante para quedarse oculto en los comentarios de un post, así que lo voy a referenciar desde un nuevo post.
un saludo!
gracias a ti
entre javier leiva, tu, y compañía tengo los feeds a reventar, demasiada información interesante y tan poco tiempo
Para términar un último enlace (con muchos enlaces que seguir) que he visto justo hoy en ojo buscador y que le pone la puntilla a lo que hemos venido diciendo por aquí sobre Hakia:
http://blog.hakia.com/?p=103
saludos y de nuevo, muchas gracias
[...] propio post, siempre es de agradecer. Este es el caso de los comentarios de José R. Pérez en el post sobre Búsqueda Semántica. Lectura [...]
Cuídate esa gripe Jose, que con tanta producción escrita no se te va a pasar la fiebre
José Ramón, decidamente deberías ponerte con la tesis!!
Después de leer estas cosas estoy deseando que la publiques para tenerla en mis manos
Chicos, que sepais que todo lo escrito es producto de la fiebre
A la tesis le quedan dos telediarios, ya estoy corrigiendo typos, imaginate.
gracias por los comments
siempre se agradece que los delirios febriles de uno sean del agrado de los demás.
+ saludetes
jose