Nube de Etiquetas
(Ah?)

viernes, febrero 01, 2008

Regresión vs. Clasificación

Regresión, en el contexto de la estadística y el modelaje matemático, es algo claramente distinto a autoespiarse en una etapa infantil o una vida pasada. Y ciertamente cuando uno hace una regresión típica (digamos, por ejemplo, mínimos cuadrados), uno ciertamente no siente que está regresando en ningún sentido.
El orígen del término data del siglo XIX, cuando fue utilizado en el contexto del análisis de un proceso biológico. Éste proceso tenía que ver con el hecho de que los descendientes de individuos excepcionales, tienden a ser más normalitos que sus excepcionales ancestros. Charles Darwin tenía un primo de apellido Galton (si no me equivoco) que llamó a este proceso "regresión". Este caso fue estudiado luego desde el punto de vista estadístico, y al final se terminó llamando "Regresión" a las técnicas en las que uno examina como se reacciona una variable de respuesta (variable dependiente) en función de una variable explicativa (variable independiente).
Este tipo de procesos de análisis no requieren entender los procesos detrás de la generación de los datos estudiados. Las premisas que se toman, en todo caso, son sólo de tipo estadístico (como por ejemplo que los errores respecto a la curva que "modela" el sistema están distribuídos según la campana de Gauss).
La regresión se usa para realizar pronósticos, probar hipótesis, estimar parámetros, entre otras cosas. He escuchado varias opiniones acerca de estos métodos, y no les quito razón, cuando dicen que debido a que "cualquiera hace una regresión, pero sólo expertos pueden criticarlas", uno encuentra que muchísima gente hace una regresión simplemente por hacerla.
Los que no conocen de estadística o modelos matemáticos ven unas "cuentas" y una curva, y realmente no tienen el tiempo de comprobar que todo lo que se hizo está bien, pero ya la exposición del analista de la regresión queda enmarcada en una supuesta formalidad.
A esto se refiere el dicho de que "la mayoría de las personas usan la estadística de la misma forma que los borrachos usan los postes de luz, para apoyarse, pero no para buscar iluminación".
Al final, simplemente una regresión es una forma de aproximar una expresión matemática para que se comporte de forma similar a un conjunto de datos que uno ha recogido. Por ejemplo: quiero saber cómo varía la presión atmosférica según se sube por una montaña, y hago mi escalada para la montaña, parándome 4 veces en mi camino para sacar mi barómetro y ver cuánto marca, y en el mapa me dicen a que altura está el parador turístico en el que me detuve a hacer la medición, por lo que en mis notas pongo los dos datos juntos.
Al final tengo 4 pares de datos (altitud, presión), y en la próxima tarde lluviosa me pongo a sacar cuentas, para ver qué función matemática pasa por esos puntos de la mejor forma. Cuando la tenga lista, asumiré que cada vez que me digan la altura, podré estimar la presión, y viceversa. Perfecto. Si no tuviese esa técnica (ni conocimientos teóricos sobre termodinámica y fluídos), sólo podría responder a esas preguntas específicamente para los puntos que ya medí. Ahora puedo responderlo para cualquier punto intermedio aunque no me haya parado a medir.
¿Y para donde voy con todo esto? Bien. Ahora que está claro para todos lo que es una regresión, puedo pasar a relacionar el concepto con el de clasificación, que lo hablé en un post anterior.
Resulta que construír un modelo de clasificación es conceptualmente muy similar a construír un modelo de regresión, sólo que la respuesta que se me pide que de, no es un número cualquiera, sino una categoría.
Es algo así como que me pidan que elabore un modelo para saber cuando un lugar es de presión alta y cuando es de presión baja. Me voy de paseo, y en el camino voy preguntando a las personas: "¡Señor! ¿acá la presión es alta o baja?". Voy anotando los valores de altitud, junto a la respuesta del paisano de ese lugar en mi cuadernito. Luego tengo que sentarme en mi casa y ver para cada altura qué me respondieron. El modelo podría ser algo así como "Si la altura es mayor que X, la gente en general piensa que la presión es alta". Ese es mi modelo de clasificación.
En el fondo es un modelo de Regresión, pero que la variable de respuesta (dependiente) no es contínua, sino categórica.
Bueno, a mi me pareció interesante cuando supe esto, y quería compartirlo con los que aún no han pasado a considerarlo trivial, jeje. Son los pequeños asombros que lo animan a uno a seguir investigando estas cosas. ¿No es verdad?

3 comentarios:

Anónimo dijo...

a mi me gustó la explicación, bajo el principio universal que deberíamos aplicar para todo el KISS

Anónimo dijo...

Muy buena explicación. Más simple y sencillo y se daña. Saludos!

Orestes Manzanilla dijo...

¡Gracias por los comentarios! Me anima a querer continuar escribiendo en este blog, cosas que vuelvan sencillo (y en lo posible, interesante), cosas que para muchos son aburridas o conceptualmente inalcanzables (por el temor que se acumula a las matemáticas).