Nube de Etiquetas
(Ah?)

miércoles, mayo 21, 2008

Psicología aplicada en Máquinas de Aprendizaje: los seres humanos no son números

Creo que ya que les hablé del Premio Netflix, es bueno que les comente este excelente post en el que hacen reseña de un hecho curioso: una persona que originalmente viene del área de Psicología, llamada Gavin Potter, logró un marcado avance en este concurso. Hasta el momento en que esa persona entró, ninguno de los grupos concursantes no habían logrado hacer avances significativos desde hacía algún tiempo.... ¡y estoy hablando de personas que han probado ya múltiples ideas para resolver el problema!

Esta persona oriunda del área de Psicología, ya desde su primer intento, logró un avance mucho mayor que todos los avances recientes de los demás equipos. No pienso hacer una paráfrasis del post acá, pero si resumir en pocas palabras lo importante, y que debemos tener en cuenta al enfrentarnos a problemas reales:


Los especialistas en cómputo, estadística e inteligencia artificial pueden desarrollar algoritmos muy elaborados, y entonarlos para que trabajen muy bien ante los datos disponibles para el problema de Netflix. En ellos los números representan a los cinéfilos, y a sus gustos, y las fórmulas tratan de "predecir" el gusto que tendrán por la próxima película.

Esto está bien... salvo por el hecho de que....

¡Las personas no son números... ...ni miran las películas como si éstas lo fuesen!

Potter consideró a las personas como personas, e interpretó las calificaciones de las personas, tomando en cuenta cosas ya conocidas del comportamiento humano al momento de asignar calificaciones. El hecho de que esos números fueran asignados por un ser humano, es una información que, de alguna forma, había que incluír en el modelo.

Tomar en cuenta el factor humano, es algo que se díce más fácil de lo que se hace. ¿Cómo valernos de la psicología para estudiar personas sobre las cuáles no sabemos nada, excepto cuánto "dicen" que les gustó una película.

En corto, la forma en que Potter lo hizo, fue la siguiente:
  • Consideró que los gustos de las personas pueden cambiar a medida que pasa el tiempo. Uno puede darle más "peso" a las calificaciones más recientes que a las muy viejas.
  • Consideró el efecto "anclaje", que se refiere a la inercia que nos invade cuando asignamos calificaciones numéricas a algo (me ha pasado en mi experiencia como profesor universitario!). Si una persona ve tres películas seguidas que merecen 4 estrellas, y luego ve una que es un poco mejor, muy probablemente le asignará un 5. Sin embargo, si empezó viendo un par de películas a las que les dió sólo una estrella, esa misma película, que en otra circunstancia hubiese calificado con un 5, recibiría posiblemente sólo un 4 o incluso un 3. Potter se ocupó de medir este efecto en la data proporcionada por Netflix, y tomó en cuenta este efecto en las fórmulas, para determinar más precisamente los gustos de los cinéfilos.
La moraleja detrás de esto es muy importante:

sin importar que tan buenos modeladores seamos, al enfrentar un problema real, tener en el equipo una persona que sepa de la parte de la realidad que está tratando de modelarse. Es posible que a un especialista en computación, optimización o estadística se le ocurra algo de este estilo, pero, como sugiere el post en cuestión: incluír al especialista de la parte de la realidad que estamos estudiando puede ahorrar trabajo en modelos infructuosos.

Para cerrar, les paso el link al post es éste:
http://www.wired.com/techbiz/media/magazine/16-03/mf_netflix?currentPage=all

6 comentarios:

Morbridae dijo...

Realmente interesante. Y es algo que está muy en boga hoy en día, aunque no todos los profesionales "cuadrados" lo tenemos siempre en mente.

Damn... Cómo hubiera disfrutado si se hubiera dado lo de nuestro grupo...

Morbridae dijo...

Leído el post original... Sólo me duele una cosa: Ahora, los demás también tienen una mejor idea de cómo apuntar.

Haciéndolo famoso, le han quitado chance...

Orestes dijo...

¡Yo también hubiera disfrutado que se diera lo de nuestro grupo!
Sin embargo, no lamento el hecho de que se haya publicado el post original.
La ciencia tiene una rara manera de ser... es al mismo tiempo colaborativa y competitiva.
Publica un paper, y siempre verás que te has parado en hombros de otros. Tu aporte servirá de hombro para los de mañana, y quizá los de ese que usó tus hombros, será nuevamente sostén para tus ideas.
No es importante en la ciencia quién dice algo o qué tan secreto te lo haz, sino qué tan bueno es.
El compromiso de la Universitas por la libre búsqueda de la verdad nos exige ese sacrificio de hacer público lo descubierto.

Morbridae dijo...

"El compromiso de la Universitas por la libre búsqueda de la verdad nos exige ese sacrificio de hacer público lo descubierto."

Te creo, pero... Voto por publicarlo LUEGO de que se gane el premio! :D

Orestes dijo...

Jeje... pues si. Las reglas dicen que se publica el algoritmo que gane ese año. La publicación va en paralelo con el dinero, doctor. Sólo que hay que tener en cuenta que los organizadores no saben si ES POSIBLE logar la mejora de más del 10% de la precisión. Cada año premian al que más se haya acercado...

Por otro lado el concurso ni siquiera tiene fecha establecida de culminación, ejeje. ¡Eso te habla de qué tan incierto es que se logre El Premio!

Orestes dijo...

Bien, el punto de Oscuridad no es sobre la publicación al ganar (de hecho potter no ha ganado).

Yo me confundí porque al leer la frase "le han quitado el chance", pensé que se refería a que al que gana se le quita algún chance. Sin embargo el se refería sólo al post original que cito acá en mi blog.

Mi comentario al respecto es que si. ES VERDAD que se le quita ventaja (o mejor dicho, se le regalan ideas a los competidores), al publicar un artículo como ese, sin haber ganado aún.

Lo único que corregiría en la frase es quién quita el chance a quién.. ;o)

Fue Potter, al hacer las declaraciones, quién se lo quitó!

Pero no se preocupen, en general, en el concurso Netflix, quienes tienen "buenos resultados" (aunque no sean los ganadores) suelen compartir las ideas, y discutir entre ellos diferentes posibles estrategias a implementar.

Esta apertura no podía haber sido prevista, sobre todo por la cantidad de dinero en juego, pero ya ven,... siempre hay motivos para dejarse asombrar por la realidad!

¿Qué es más importante, disfrutar el juego, aprender y compartir? ¿o ganarse el premio?

Entre el disfrute y el dinero no me atrevo a escoger. Pero supongo que quienes comparten la información no están necesitando el dinero para nada vital! jaja.

En todo caso, quiero recordar acá que aparte de aumentar las probabilidades de que los otros mejoren, publicar las ideas propias puede tener el efecto de generar discusiones que a ti mismo te provoquen nuevas ideas, que posiblemente podrían ser la diferencia entre ganar o no.

"El juego no se termina hasta que se termina" ;oD