Textos sobre "Recuperación de información"

< Volver a la página de inicio

Seguimos con el tema iniciado en búsqueda semántica, a raíz de un interesante artículo publicado en New York Times: Google Keeps Tweaking Its Search Engine [via UXMagazine].

“The fundamental value created by Google is the ranking,” says John Battelle.

Es este ranking el que aún posiciona a google como indiscutible ganador en la carrera de las búsquedas en internet. Hablar de recuperación de información es hablar de relevancia.

Search over the last few years has moved from ‘Give me what I typed’ to ‘Give me what I want,’ ” says Mr. Singhal

Bueno, en realidad esa diferenciación no es nueva, y es precisamente la que originó hace ya muchos años la distinción entre “Recuperación de Datos” y “Recuperación de Información” (Rijsbergen; 1975).

Google search-quality team makes about a half-dozen major and minor changes a week to the vast nest of mathematical formulas that power the search engine.

Esta continua optimización, estos pequeños cambios son los que marcan la diferencia. Como ya dije, los detalles son cruciales.

El artículo continúa relatando varios ejemplos (más o menos conocidos) de mejoras algorítmicas en google, que intentan adaptarse y satisfacer con mayor precisión las necesidades de información de sus usuarios. Por ejemplo: 

Mr. Singhal introduced the freshness problem, explaining that simply changing formulas to display more new pages results in lower-quality searches much of the time. He then unveiled his team’s solution: a mathematical model that tries to determine when users want new information and when they don’t. (And yes, like all Google initiatives, it had a name: QDF, for “query deserves freshness.”)  

PD: El otro día Catorze hablaba sobre los retrasos de Spanair, y hoy ya aparece para la búsqueda en google.es: retraso spanair.

Rijsbergen, C.J. (1975). Information Retrieval. London: Butterworths, 1975.  En:
http://www.dcs.gla.ac.uk/Keith/Preface.html

Cuando uno escribe un post y recibe comentarios con un contenido mucho más interesante y desarrollado que el del propio post, siempre es de agradecer. Este es el caso de los comentarios de José R. Pérez en el post sobre Búsqueda Semántica. Lectura recomendada.

Todo el mundo tiene su propia teoría sobre por qué google desbancó al resto de buscadores con su llegada. Algunos lo achacan a cuestiones de mercado, inversión, usabilidad… Yo, por supuesto, también tengo la mía. Fue por su utilidad: por tener un algoritmo mucho más eficaz que la competencia del momento, ofreciendo resultados más relevantes para las búsquedas.

En el tema de los algoritmos de búsqueda los detalles son cruciales. Que dos buscadores diferentes utilicen un mismo modelo general (lógica difusa, indización de semántica latente, procesamiento del lenguaje natural…) no implica que sus resultados tengan la más mínima similitud en términos de relevancia. De hecho, los detalles es precisamente lo que ningún buscador revelará. Si google basara todo su potencial de recuperación en el más que conocido algoritmo de pagerank, dudo que fuera el buscador más utilizado.

Es difícil prever a corto o medio plazo que un buscador pueda destronar a google, pero siempre es interesante observar qué nuevas propuestas surgen, y en qué basan su lógica de funcionamiento. Uno que lleva tiempo despertando mi interés es Hakia. Con un diseño feo de narices, y aunque mostrando resultados en colaboración con Ask, incorpora ciertas técnicas de procesamiento del lenguaje natural que, hasta donde he probado, ofrece resultados interesantes.

El Dr. Riza C. Berkan, fundador de Hakia, ofrece algunas pistas (pocas) sobre lo que entienden por búsqueda semántica: Semantic Search: An Antidote for Poor Relevancy. Quizá solo se trata de humo, ¿o quizá no?.

PD: Los comentarios y las respuestas de Riza también merecen un vistazo.