Recientemente han tomado bastante auge los análisis de datos de grandes dimensiones, con muchos registros y muchas covariables. Los métodos más usados de exploración y análisis de se realizan a través de propuestas desde Machine Learning (aprendizaje automático de máquinas), Data Science,(ciencia de datos), entre otros. Para acercarse a estos métodos, se requieren conceptos de áreas como Matemáticas, Estadística y Lenguajes de Programación. Desde el punto de vista de la Estadística, consideramos que estos métodos son muy importantes pero tienen algunos reparos; mencionaremos dos de ellos: i) al ajustar modelos a los datos, no se tienen en cuenta detalles como validación de supuestos o calidad de ajuste; ii) al tener datos de grandes dimensiones, los procedimientos se pueden volver como una caja negra, donde no se tiene la claridad conceptual sobre lo que internamente están haciendo los novedosos método. Con base en esto, nuestro objetivo es acercarnos a estas propuestas por medio de ejemplos didácticos; en este caso, con la propuesta de Machine Learning, la cual puede definirse como un conjunto de procedimientos computacionales que pueden detectar automaticamente patrones en los datos, y, en algunos casos, usar estos patrones descubiertos para, por ejemplo, predecir datos futuros. Acá, trataremos ejemplos de clasificadores para problema de predicción en respuesta binaria. Presentaremos inicialmente los tests de Mc Nemar y ANOVA para compara el desempeño de dos o más clasificadores binarios, de los usados en machine Learning. Los métodos de clasificación que se compararán serán, en inglés, por las siglas más conocidas, Multinomial Logistic Regression(MLR), Linear Discriminant Analysis (LDA), K-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Randon Forests (RF), Gaussian Naive Bayes (GNB) y Support Vector Machines (SVM). Compararemos los métodos usando el método de validación cruzada, con cuatro escenarios de porcentajes de los datos para validación. |