Textos sobre "Recuperación de información"

< Volver a la página de inicio

Así me gustaría que fuera Google:

buscar, reencontrar y descubrir

No me refiero a la disposición visual de estas opciones, sino a la posibilidad de diferenciar entre las tres tareas.

  • Search: La búsqueda clásica, a ser posible sin excesiva personalización de resultados.
  • Refind: Reencontrar algún recurso ya conocido, tomando como base mis favoritos, los blogs a los que estoy suscrito…
  • Discover: Justo lo contrario que las anteriores opciones. Al introducir una consulta debería ofrecerme resultados novedosos, desconocidos y potencialmente interesantes. Para esto podría tomar como base los favoritos o enlaces de mis contactos (twitter, delicious, reader, etc.) y darle un mayor peso en la estimación de la relevancia a la actualidad del recurso.

Y a ti, ¿cómo te gustaría que fuera?

He descubierto con bastante alegría este libro online y gratuito: Search User Interfaces de Marti Hearst. Solo por quien es el autor, y por quienes hacen las reseñas, merece la pena dedicarle un buen rato.

Search User Interfaces

Ya estoy de vuelta del search congress, un evento que realmente he disfrutado. Sin duda hay que felicitar a Ouali por su iniciativa.

Mi charla trató sobre recuperación de información, introduciendo mínimamente el modelo tradicional, las propuestas alternativas que se hacen desde el enfoque cognitivo, y lo que finalmente a mi juicio está y seguirá funcionando, donde los esfuerzos se centran en comprender la naturaleza social e inter-psicológica de los usuarios, y no simplemente el problema tecnológico o los procesos aislados de interacción entre usuario y buscador como entidades cognitivas “análogas”.

En fin, si alguien tiene curiosidad, la presentación la he puesto en slideshare, accesible desde mi web personal.

La verdad es que fueron muchas las presentaciones interesantes, y las personas a las que pude conocer, volver a ver, y con las que charlar sobre seo, sem, usabilidad, etc.

Una de esas personas (a la que más que conocer, reconocí), fue Alberto Knapp (the-cocktail), quien hizo una presentación muy interesante que él mismo resume en su blog.

Jorge Serrano me recomienda una interesante lectura que se me había pasado por alto: The art of the field study (blog oficial de google)

En este post se comentan algunos estudios de usuarios que llevan a cabo en google (eye-tracking incluido), y se reflexiona sobre la siempre difícil relación entre lo que los usuarios piensan, hacen y verbalizan en las pruebas.

Además se comenta lo frustrante que resultaba para los usuarios la página de búsqueda avanzada (captura del anterior diseño), lo que motivó su rediseño (captura del nuevo diseño). Entre los cambios hechos destacan la reorganización de los campos, y el uso de un vocabulario más comprensible eliminando términos como “occurrences”.

El tema del rotulado en los sistemas de búsqueda es uno de los que suelo tratar en los cursos de AI. Como (mal) ejemplo suelo señalar el del buscador interno de elmundo.es, en el que al hacer una consulta obtenemos frases como:

15 resultados de 2549 con un 45% de relevancia ordenados por COINCIDENCIA

Conceptos como el porcentaje de relevancia o el criterio de ordenación por ‘coincidencia’ (que viene a ser igual que ‘occurrence’), no tienen ninguna significación para el usuario final (qué decir de conceptos como ‘operadores booleanos o lógicos’).

Entre los cambios hechos en la sección de búsqueda avanzada de google yo destacaría la reubicación del botón de búsqueda, que en el anterior diseño no tenía una relación espacial lógica con el resto de campos. Me llama la atención que se haya optado en el rediseño por rotular el botón como “Advanced search”, pues no creo que resulte más descriptivo que el anterior “Google search” (dudo que este cambio pueda estar motivado por ningún resultado en sus test con usuarios, pero quien sabe).

PD: Hace un par de años hablábamos de la difícil relación entre Recuperación de Información y HCI.

Seguimos con el tema iniciado en búsqueda semántica, a raíz de un interesante artículo publicado en New York Times: Google Keeps Tweaking Its Search Engine [via UXMagazine].

“The fundamental value created by Google is the ranking,” says John Battelle.

Es este ranking el que aún posiciona a google como indiscutible ganador en la carrera de las búsquedas en internet. Hablar de recuperación de información es hablar de relevancia.

Search over the last few years has moved from ‘Give me what I typed’ to ‘Give me what I want,’ ” says Mr. Singhal

Bueno, en realidad esa diferenciación no es nueva, y es precisamente la que originó hace ya muchos años la distinción entre “Recuperación de Datos” y “Recuperación de Información” (Rijsbergen; 1975).

Google search-quality team makes about a half-dozen major and minor changes a week to the vast nest of mathematical formulas that power the search engine.

Esta continua optimización, estos pequeños cambios son los que marcan la diferencia. Como ya dije, los detalles son cruciales.

El artículo continúa relatando varios ejemplos (más o menos conocidos) de mejoras algorítmicas en google, que intentan adaptarse y satisfacer con mayor precisión las necesidades de información de sus usuarios. Por ejemplo: 

Mr. Singhal introduced the freshness problem, explaining that simply changing formulas to display more new pages results in lower-quality searches much of the time. He then unveiled his team’s solution: a mathematical model that tries to determine when users want new information and when they don’t. (And yes, like all Google initiatives, it had a name: QDF, for “query deserves freshness.”)  

PD: El otro día Catorze hablaba sobre los retrasos de Spanair, y hoy ya aparece para la búsqueda en google.es: retraso spanair.

Rijsbergen, C.J. (1975). Information Retrieval. London: Butterworths, 1975.  En:
http://www.dcs.gla.ac.uk/Keith/Preface.html

Cuando uno escribe un post y recibe comentarios con un contenido mucho más interesante y desarrollado que el del propio post, siempre es de agradecer. Este es el caso de los comentarios de José R. Pérez en el post sobre Búsqueda Semántica. Lectura recomendada.

Todo el mundo tiene su propia teoría sobre por qué google desbancó al resto de buscadores con su llegada. Algunos lo achacan a cuestiones de mercado, inversión, usabilidad… Yo, por supuesto, también tengo la mía. Fue por su utilidad: por tener un algoritmo mucho más eficaz que la competencia del momento, ofreciendo resultados más relevantes para las búsquedas.

En el tema de los algoritmos de búsqueda los detalles son cruciales. Que dos buscadores diferentes utilicen un mismo modelo general (lógica difusa, indización de semántica latente, procesamiento del lenguaje natural…) no implica que sus resultados tengan la más mínima similitud en términos de relevancia. De hecho, los detalles es precisamente lo que ningún buscador revelará. Si google basara todo su potencial de recuperación en el más que conocido algoritmo de pagerank, dudo que fuera el buscador más utilizado.

Es difícil prever a corto o medio plazo que un buscador pueda destronar a google, pero siempre es interesante observar qué nuevas propuestas surgen, y en qué basan su lógica de funcionamiento. Uno que lleva tiempo despertando mi interés es Hakia. Con un diseño feo de narices, y aunque mostrando resultados en colaboración con Ask, incorpora ciertas técnicas de procesamiento del lenguaje natural que, hasta donde he probado, ofrece resultados interesantes.

El Dr. Riza C. Berkan, fundador de Hakia, ofrece algunas pistas (pocas) sobre lo que entienden por búsqueda semántica: Semantic Search: An Antidote for Poor Relevancy. Quizá solo se trata de humo, ¿o quizá no?.

PD: Los comentarios y las respuestas de Riza también merecen un vistazo.