26 nov. 2016

Charla Data Mining UBA-Sep2016

Estas notas son de la charla que asistí en la UBA sobre Data Mining el 22 septiembre de 2016. Son apuntes que hice sobre las ponencias que hicieron y otras ideas del momento. Esta nota no refleja lo que se expuso en la charla. Para detalle de las charlas, ver este link:




Ponencia 1: Guillermo Folguera (Posicionamiento Filosófico)
Existen dos posicionamiento relacionados a la formulación de hipótesis. En el primero se considera que las hipótesis nacen del entendimiento del problema, y no de las variables, por lo tanto: a mayor cantidad de variables no se modifican las hipótesis. El segundo posicionamiento considera que a mayor cantidad de variables se pueden crear nuevas y mejores hipótesis.
Las hipótesis en sistemas naturales se mantienen en una realidad pos-predicción. En sistemas sociales, económicos y cualquier otro que tenga que ver con personas, donde la predicción conlleva a una acción que modifica el sistema de estimulo-respuesta, las hipótesis suelen cambiar luego de la predicción: la predicción puede romper el equilibrio y crear un sistema nuevo de estimulo-respuesta. 

Ponencia 2: Marcelo Soria (Posicionamiento Cientifico)
Existe la tendencia a realizar estudios o análisis seleccionando parámetros o poblaciones que arrojen los resultados que se desean. A esto le llaman "hackeo del valor P".  Algunas técnicas pueden ser estas:
- Elegir una muestra o remuestrear hasta encontrar el valor p deseado.
- Se pueden elegir variables que expliquen una hipótesis, pero en el mismo dataset pueden existir otras variables que expliquen una hipótesis contraria a la anterior.
- Elegir distintos test de hipótesis hasta que uno de ellos arroje el resultado buscado.
Otro tema en las investigaciones científicas es que no se publican los resultados de las hipotesis nulas. Si una investigación no demuestra la relación entre variables entonces no se publica, por lo cual es muy probable se vuelva a repetir la misma investigación sin resultados una y otra vez a traves del tiempo. Así tambien las batallas ganadas son descritas con detalles, inclusive por mas de un narrador una y otra vez, mientras que las derrotas no suelen ser atractivas para describir y documentar, porque no se ganó: es una derrota. Aunque sí se gana conocimiento.

Ponencia 3: Gustavo Denicolay (Posicionamiento Pragmatico)
En el área analítica practica (ver amazon como ejemplo) se suele usar técnicas de prueba error (A/B Test) para luego (analizando y midiendo los resultados con la visión de científico de datos) determinar cuál es el producto o solución más conveniente. Esto se hace así porque es muy costoso (en tiempos humanos) identificar la solución mas conveniente desde el punto de vista analítico o científico de datos. Analizar los datos para encontrar la mejor solución o producto puede llevar mucho tiempo, y en el ambiente comercial es mas rentable lanzar varias soluciones o productos en simultaneo, para luego analizar (con un científico de datos) cual tiene mejor desempeño. En muchas ocasiones esto puede traer inconvenientes para el consumidor final, pero aun asi sigue siendo mas rentable para las empresas y por esto se hace. 

Debe considerarse siempre crear redes de causa efecto que describan el por qué está sucediendo el fenómeno estudiado y cómo afectará las acciones que se realizarán como resultado de la predicción.


FIN

No hay comentarios:

Publicar un comentario