Formando rectores para transformar escuelas:impacto del programa Rectores Líderes Transformadores

Existe un concenso sobre el rol que juegan los rectores: son pieza fundamental del ecosistema complejo que determina el aprendizaje y formación integral de los estudiantes guaranteed $100 loan. En particular, la literatura internacional ha documentado ampliamente el impacto que tiene la gestión y liderazgo de los rectores sobre desempeño académico de los estudiantes (Blimpo et al., 2015; Fryer, 2017; Branch et al., 2012; Grissom y Loeb, 2011) y el ambiente escolar (Pont et al., 2008). Colombia no es la excepción: en un estudio reciente encontramos que la calidad de las prácticas y procesos gestión escolar son un predictor importante de la deserción escolar y del desempeño en las pruebas SABER 3º y 5º (Harker, Molano y Gómez, 2018).   En este caso, como en muchos otros, está claro el “qué”, pero no el “cómo”. Por una parte, reconocemos que necesitamos buenos rectores para garantizar la calidad de la educación. Pero, por otra parte, no es evidente cuál es la estrategia más costo-efectiva para lograr que los aproximadamente 6 mil rectores en Colombia adquieran competencias y herramientas básicas para ejercer efectivamente su rol de liderazgo en los colegios oficiales. Así, un primer paso para avanzar en encontrar este “cómo”, es identificar programas de formación de rectores que sean efectivos.   Desde el año 2011, la Fundación Empresarios por la Educación (FExE), a través del programa Rectores Líderes Transformadores (RLT), ha venido promoviendo el desarrollo personal, pedagógico y administrativo de más de mil rectores en colegios oficiales en 23 municipios de Colombia. Desde 2015, en conjunto con José Darío Herrera (Profesor también en la Universidad de los Andes) hemos liderado la evaluación de este programa, utilizando un diseño de métodos mixtos que combina información cualitativa de primera mano, con información cuantitativa de primera y segunda mano. El diseño de métodos mixtos de esta investigación aprovecha las complementariedades entre los métodos “cuanti” y “cuali”: los primeros sirven para cuantificar el impacto atribuible al programa, mientras que los segundos permiten identificar y profundizar el entendimiento sobre las transformaciones percibidas por los diferentes agentes educativos (estudiantes, docentes y directivos). En esta entrada me voy a concentrar en presentar un resumen de la evidencia recogida en el componente cuantitativo de esta evaluación.   Impacto de RLT sobre el aprendizaje   Para identificar el impacto de RLT sobre el aprendizaje de los estudiantes utilizamos una combinación una metodologías ampliamente utilizada en evaluaciones de impacto: Diferencias-en-Diferencias con Emparejamiento por Puntaje de Similitud (PSM-DD por sus siglas en inglés: Propensity Score Matching and Differences-in-Differences). Ante la imposibilidad de hacer una evaluación experimental -en la cual se genera un grupo de control através de un proceso de asignación aleatoria-, en un PSM-DD se pretende minimizar los sesgos en la medición del impacto por dos vías: (i) definiendo un grupo de control expost utilizando como criterio un puntaje de similitud utilizando una amplia batería características de los colegios y sus municipios, previas al inicio del programa (ver Tabla 1); y (ii) controlando por diferencias pre-existentes (observables y no-observables) en los colegios y rectores que no varían en el tiempo. Este ejercicio se centra en identificar el impacto de RLT sobre el desempeño promedio en las pruebas SABER11 de los colegios que participaron en la cohorte III del programa RLT, que inició en junio de 2013.   Tabla 1 – Prueba de medias de emparejamiento (método vecino más cercano) http://mirziamov.ru/mfo-online/zaim-ekapusta.html

Variable Media t-test
Tratamiento Control t p>t
Tasa de repitencia 2012 0.022 0.022 -0,21 0.835
Tasa de deserción 2012 0.031 0.030 0.07 0.947
Número de sedes 4.418 4.656 -0,62 0.536
Rural 0.252 0.282 -0,77 0.440
Rural y urbano 0.216 0.223 -0,21 0.837
Región Andina 0.919 0.934 -0,66 0.512
Región Caribe 0.080 0.065 0.66 0.619
Región Pacifica 0.000 0.000 .     .
Regio Amazonas y Orinoco 0.000 0.000 .     .
Población total 1.2E+06 1.2E+06 0.05 0.958
Matrícula 2012 1020 999.57 0.32 0.752
SABER11 Lenguaje 2012 46.688 46.782 -0,41 0.679
SABER11 Matemáticas 2012 43.566 43.646 -0,31 0.76
Jornada única 0.366 0.379 -0,29 0.768
Distancia a la capital del departamento 46.531 47.742 0,24 0.810
Distancia a Bogotá 259.530 253.460 0.4 0.692
Observaciones 274 2745    

Para garantizar la robustez de los resultados, se utilizan cuatro métodos de emparejamiento que son estándares en la literatura (Bernal y Peña 2012; Caliendo y Kopeing 2005): (i) emparejamiento con el vecino más cercano, (ii) emparejamiento por Kernel, (iii) emparejamiento por distancia máxima de probabilidad, y (iv) Entrophy. En la Tabla 2 se presentan los resultados del impacto del programa en cinco horizontes de tiempo para la estimación por el método de Enthropy: a aproximadamente 6 meses (2012-2013), a aprox. 1.5 años (2012-2014), a aprox. 2.5 años (2012-2015), a aprox. 3.5 años (2012-2016) y a aprox. 4.5 años (2012-2017). Estos cinco plazos de impacto se estiman para dos proxies del aprendizaje de los estudiantes: el desempeño promedio de los colegios en los componentes de Matemáticas y Lenguaje de la prueba nacional SABER11.   Los resultados de las estimaciones indican que el programa tiene un impacto importante y sostenido en el componente de Matemáticas. En particular, la evidencia sugiere que el efecto del programa disminuye en el tiempo, pasando de ser de 0.14 desviaciones estándar en el periodo 2012-2014, a ser de 0.09 desviaciones estándar en el periodo 2012-2017. Lo que sugieren estos resultados es que hay un efecto importante de la implementación del programa RLT que se mantiene en el tiempo, pero que disminuye su magnitud con el paso de los años. Los resultados para las otras tres metodologías son similares en magnitud y significancia, y muestran un patrón similar en el tiempo. Además, es importante destacar que la magnitud de este impacto es comparable al de otras intervenciones existosas en educación (documentado por el Poverty Action Lab acá)   Tabla 2 –Impacto del programa RLT (PSM-DD, método Entropy)

Variable Horizonte de impacto Impacto Error estándar robusto t P>t P>t  
SABER11 – Lenguaje 2012-2013 0.036 0.037 0.98 0.329    
2012-2014 0.159 0.043 3.71 0 ***  
2012-2015 0.049 0.042 1.17 0.243    
2012-2016 0.099 0.042 2.31 0.021 **  
2012-2017 0.068 0.042 1.62 0.105    
SABER11 – Matemáticas 2012-2013 0.136 0.042 3.23 0.001 ***  
2012-2014 0.139 0.046 3.02 0.003 ***  
2012-2015 0.098 0.045 2.16 0.031 **  
2012-2016 0.097 0.045 2.16 0.031 **  
2012-2017 0.090 0.046 1.93 0.051 *  
Notas: El tamaño del efecto está en desviaciones estándar de Saber 11.  (***p<0.01, **p<0.05, *p<0.1.)  
 

Para explorar si estos resultados son espurios, planteamos una prueba de falsificación. Imbens y Rubin (2010) sugieren dos tipos de pruebas de falsificación: (i) estimar el efecto del programa sobre una variable que en teoría no puede ser afectada por el tratamiento, o (ii) estimar el efecto de un tratamiento “ficticio” que no debería afectar nuestra variable de resultado. En este caso, decidimos hacer el primer tipo de prueba de falsificación, evaluando el impacto de RLT sobre el desempeño académico en los periodos anteriores a ser implementado el programa (2010-2012 y 2011-2012). Los resultados presentados en la Tabla 3 evidencian que no hay impacto del programa RLT sobre las Pruebas SABER 11 en uno y dos periodos anteriores al inicio del programa, lo que sugiere que los resultados de la Tabla 2 no son producto de una relación espuria.   Tabla 3 – Prueba de falsificación (PSM-DD, método Entropy)

Variable Horizonte de impacto Impacto Error estándar robusto t P>t  
SABER11 – Lenguaje 2010-2012 0,051 0,049 1,04 0,298  
2011-2012 0,058 0,043 1,34 0,181  
SABER11 – Matemáticas 2010-2012 -0,029 0,047 -0,61 0,54  
2011-2012 0,073 0,043 1,56 0,119  
Notas: El tamaño del efecto está en desviaciones estándar de Saber 11.  (***p<0.01, **p<0.05, *p<0.1.)  
 

¿Qué mecanismos explican este impacto sobre el aprendizaje?   Adicionalmente, para determinar qué transformaciones (en el rector y en el colegio) explican este impacto sobre el aprendizaje de los estudiantes, durante el primer semestre del 2018 visitamos aproximadamente 340 colegios seleccionados aleatoriamente para ser una muestra representativa de: (1) los colegios que participaron en la cohorte III de RLT, y (2) los colegios que fueron seleccionados para el grupo de control a través del PSM. Utilizando los resultados del componente cualitativo y de un ejercicio de construcción de la Teoría del Cambio del programa, en estas visitas se recogió información para construir indicadores de resultados en 13 dimensiones.   Los resultados son contundentes. Utilizando la información de primera mano que recogimos en la muestra de colegios (de tratamiento y control), con una estimación por Mínimos Cuadrados Ordinarios encontramos evidencia de que RLT logra que los rectores:

  1. Tengan mejores prácticas en las cuatro áreas principales de la administración escolar: operaciones, monitoreo, definición de metas y gestión del talento humano (ver Tabla 4).[i]
  2. Mejoren el ambiente escolar (ver Tabla 5).
  3. Mejoren el clima en el aula (ver Tabla 5).
  4. Promuevan espacios para la reflexión pedagógica (ver Tabla 6).
  5. Desarrollen habilidades sociales y emocionales (ver Tabla 7).
  6. Se comuniquen asertiva y efectivamente (ver Tabla 8).
  7. Promuevan el trabajo colaborativo y las redes de pares (ver Tabla 8).

¿Qué hacer con estos resultados?   Como lo decía al comienzo de esta entrada, estos resultados buscan contribuir a responder la parte del “cómo”… ¿Cómo podemos lograr que los rectores adquieran competencias y herramientas para garantizar la calidad de la educación? Ya sabemos que RLT lo logra. No obstante, el escalamiento de este programa se ha enfrentado en el pasado al argumento de que esta una intervención relativamente costosa. Mi opinión es que este programa parece costoso solamente si lo vemos como un programa de formación de rectores. Pero si lo vemos como una estrategia para transformar escuelas, no lo es. En términos prácticos, esto quiere decir que el costo de este programa debe compararse con su efectividad para mejorar las pruebas SABER 11 (como medida aproximada del aprendizaje), y no compararse con el número de directivos docentes (rectores y coordinadores) formados.   Superar esta barrera es muy importante, sobretodo en la coyuntura actual, justo cuando las diferentes carteras del Gobierno están definiendo sus metas y estrategias para los siguientes 4 años. En particular, hace unos meses la Ministra de Educación de Colombia mencionó que, dentro de las estrategias para mejorar la calidad de la educación, se encuentra la creación de la “Escuela de Liderazgo para directivos docentes”, una red de universidades (nacionales e internacionales)  y organizaciones de la sociedad civil, que tendría como meta formar a más de 10.000 directivos docentes. Parecería ideal entonces que esta Escuela siguiera el principio de las políticas basadas en evidencias, de tal manera que sus programas de formación estén adopten experiencias que hayan demostrado ya su efectividad (como RLT).   Tabla 4 – Impacto sobre prácticas de gestión escolar

Variables Operaciones Monitoreo Definición de metas Talento humano WMS
           
Tratamiento RLT 0.410*** 0.468*** 0.181* 0.465*** 0.448***
  -0.106 -0.105 -0.107 -0.105 -0.105
Constante -0.200*** -0.229*** -0.088 -0.227*** -0.219***
  -0.071 -0.073 -0.078 -0.069 -0.073
Controles Si Si Si Si Si
Observaciones 346 346 346 346 346
R-cuadrado 0.042 0.055 0.008 0.054 0.05
Notas: Errores estándar robustos en paréntesis. *** p<0.01, ** p<0.05, * p<0.1 La muestra completa cuenta con 346 encuestas realizadas a rectores, los cuales son de 171 colegios de tratamiento y 178 colegios de control. Los colegios de control se seleccionaron a partir de la metodología de Propensity Score Matching (PSM) utilizando el vecino más cercano como método de emparejamiento, con este método se logra asignar 3 colegios de control a cada tratamiento. Los colegios de tratamiento son una muestra representativa de la cohorte 3 de RLT. Los puntajes están estandarizados, para las 4 dimensiones de la Encuesta Mundial de Gestión.

  Tabla 5 – Impacto sobre ambiente escolar y clima de aula

Variables Expectativas: proporción de estudiantes que lograran desarrollar su proyecto de vidaa  Bajas expectativas de los docentes sobre los estudiantesb Relaciones entre paresc Convivencia y seguridadd Clima del aulae Dedicación a atención a padresf
             
Tratamiento RLT 0.114** -0.112** 0.150*** 0.189*** 0.124*** 0.103**
  (0.048) (0.048) (0.048) (0.048) (0.047) (0.048)
Constante -0.190 0.210 -0.536 0.191 0.131 -1.055***
  (0.491) (0.575) (0.499) (0.535) (0.386) (0.349)
             
Observaciones 1,728 1,739 1,739 1,739 1,739 1,739
R-cuadrado 0.021 0.014 0.015 0.020 0.033 0.019
Controlesg Si Si Si Si Si Si
Notas: La muestra completa cuenta con 1739 encuestas realizadas a docentes de las cuales 884 se realizaron en colegios de control y 855 en colegios de tratamiento, los cuales representan 171 colegios de tratamiento y 178 colegios de control. Los colegios de control se seleccionaron a partir de la metodología de Propensity Score Matching (PSM) utilizando el vecino más cercano como método de emparejamiento, con este método se logra asignar 3 colegios de control a cada tratamiento. Los colegios de tratamiento son una muestra representativa de la cohorte 3 de RLT. f. Ocurre la misma asignación que en el inciso e. g. La respuesta está en un rango entre 5 y 17, se asignan valores a las posibles respuestas de la siguiente manera: (i) Educación básica primaria (hasta grado 5°) toma el valor de 5, (ii) Educación básica secundaria (hasta grado 9°) toma el valor de 9, (iii) Bachillerato completo toma el valor de 11, (iv) Educación superior toma el valor de 15 y (v) Pos gradual toma el valor de 17. b. La respuesta está en un rango entre 0 y 1, se asignan valores a las posibles respuestas de la siguiente manera: (i) Nada toma el valor de 0, (ii) Muy poco toma el valor de 0.33, (iii) Algo toma el valor de 0.66 y (iv) Mucho toma el valor de 1. c. La respuesta está en un rango entre 1 y 5, se asignan valores a las posibles respuestas de la siguiente manera: (i) Muy malas toma el valor de 1, (ii) Malas toma el valor de 2, (iii) Regulares toma el valor de 3, (iv) Buenas toma el valor de 4 y (v) Muy buenas toma el valor de 5. d. La respuesta está en un rango entre 1 y 4, se asignan valores a las posibles respuestas de la siguiente manera: (i)Completamente en desacuerdo toma el valor de 1, (ii) En desacuerdo toma el valor de 2, (iii) De acuerdo toma el valor de 3 y (iv) Completamente de acuerdo toma el valor de 4. e. La respuesta está en un rango entre 0 y 1, se asignan valores a las posibles respuestas de esta sección de la siguiente manera: (i) Casi nunca toma un valor de 0.25, (ii) Casi siempre toma un valor de 0.75, (iii) Siempre toma un valor de 1 y (iv) Nunca toma un valor de 0. f. Las horas de dedicación no tienen un rango específico de respuesta, hace referencia a las horas exactas que el docente dedica a cada actividad. g. los controles que se utilizan en las estimaciones son: el tipo de vinculación laboral, el estatuto docente al que pertenece la persona, el nivel educativo, el sexo, los años dentro de la Institución Educativa y las horas de permanencia dentro de la Institución. Los puntajes están estandarizados

Tabla 6 – Impacto sobre procesos y prácticas pedagógicas

Variables Dedicación a reuniones administrativasa Dedicación a formación y capacitacionesb Dedicación a investigaciónc Retroalimentaciónd Enfoque en rendimiento escolare
           
Tratamiento RLT 0.122** 0.092* 0.145*** 0.119** 0.178***
  (0.048) (0.048) (0.047) (0.048) (0.048)
Constante -0.589 0.341 -0.035 1.304*** -0.149
  (0.378) (0.494) (0.462) (0.499) (0.394)
           
Observaciones 1,739 1,739 1,739 1,739 1,739
R-cuadrado 0.015 0.033 0.029 0.024 0.015
Controlesf Si Si Si Si Si
Notas: Errores estándar robustos en paréntesis. *** p<0.01, ** p<0.05, * p<0.1 La muestra completa cuenta con 1739 encuestas realizadas a docentes de las cuales 884 se realizaron en colegios de control y 855 en colegios de tratamiento, los cuales representan 171 colegios de tratamiento y 178 colegios de control. Los colegios de control se seleccionaron a partir de la metodología de Propensity Score Matching (PSM) utilizando el vecino más cercano como método de emparejamiento, con este método se logra asignar 3 colegios de control a cada tratamiento. Los colegios de tratamiento son una muestra representativa de la cohorte 3 de RLT. a. Las horas de dedicación no tienen un rango específico de respuesta, hace referencia a las horas exactas que el docente dedica a cada actividad, la anterior descripción aplica para b. y c. d. La respuesta está en un rango entre 0 y 36, se asignan valores a las posibles respuestas de la siguiente manera: (i) Nunca toma el valor de cero, (ii) Una vez al año toma el valor de 1, (iii) 2 a 4 veces al año toma el valor de 3, (iv) Mensualmente toma el valor de 9 y (v) Semanalmente toma el valor de 36. e. La respuesta está en un rango entre 1 y 4, se asignan valores a las posibles respuestas de la siguiente manera: (i) Completamente en desacuerdo toma el valor de 1, (ii) En desacuerdo toma el valor de 2, (iii) De acuerdo toma el valor de 3 y (iv) Completamente de acuerdo toma el valor de 4. f. los controles que se utilizan en las estimaciones son: el tipo de vinculación laboral, el estatuto docente al que pertenece la persona, el nivel educativo, el sexo, los años dentro de la Institución Educativa y las horas de permanencia dentro de la Institución. Los puntajes están estandarizados

Tabla 7 – Impacto sobre habilidades sociales y emocionales del rector

Variables Respetuosoa Extrovertidob Afablec Responsabled Neuróticoe
           
Tratamiento RLT 0.174*** 0.202*** 0.144*** 0.140*** -0.010
  (0.048) (0.048) (0.048) (0.048) (0.048)
Constante -0.417 -0.241 0.239 -0.143 -0.052
  (0.329) (0.436) (0.345) (0.346) (0.420)
           
Observaciones 1,739 1,739 1,739 1,739 1,739
R-cuadrado 0.017 0.020 0.013 0.020 0.006
Controlesf Si Si Si Si Si
Errores estándar robustos en paréntesis. *** p<0.01, ** p<0.05, * p<0.1. Notas: La muestra completa cuenta con 1739 encuestas realizadas a docentes de las cuales 884 se realizaron en colegios de control y 855 en colegios de tratamiento, los cuales representan 171 colegios de tratamiento y 178 colegios de control. b. Los colegios de control se seleccionaron a partir de la metodología de Propensity Score Matching (PSM) utilizando el vecino más cercano como método de emparejamiento, con este método se logra asignar 3 colegios de control a cada tratamiento. c. Los colegios de tratamiento son una muestra representativa de la cohorte 3 de RLT. a. b. c. d. e. Esta sección tiene valores asignados con respecto a «Big Five Inventory» el cual es una medida de medición de los grandes 5 factores o dimensiones de la personalidad (Goldberg, 1993). Los puntajes tienen un rango de 1 a 5, dependiendo de la pregunta la asignación del puntaje varía. Existen dos posibles calificaciones, la primera: (i) Muy en desacuerdo toma el valor de 1, (ii) Un poco en desacuerdo toma el valor de 2, (iii) Ni de acuerdo, ni en desacuerdo toma el valor de 3, (iv) Un poco de acuerdo toma el valor de 4 y (v) Muy de acuerdo toma el valor de 5 y la segunda:  (i) Muy en desacuerdo toma el valor de 5, (ii) Un poco en desacuerdo toma el valor de 4, (iii) Ni de acuerdo, ni en desacuerdo toma el valor de 3, (iv) Un poco de acuerdo toma el valor de 2 y (v) Muy de acuerdo toma el valor de 1. f. los controles que se utilizan en las estimaciones son: el tipo de vinculación laboral, el estatuto docente al que pertenece la persona, el nivel educativo, el sexo, los años dentro de la Institución Educativa y las horas de permanencia dentro de la Institución. Los puntajes están estandarizados

  Tabla 8 – Impacto sobre comunicación, trabajo colaborativo y redes de pares

Variables Comunicación asertiva y efectivaa Dedicación a trabajo colectivob Trabajo colaborativoc Participación en redesd
         
Tratamiento RLT 0.150*** 0.122*** 0.190*** 0.244***
  (0.048) (0.047) (0.048) (0.048)
Constante -0.070 -0.282 -0.588 -0.739
  (0.359) (0.430) (0.428) (0.476)
         
Observaciones 1,739 1,739 1,739 1,739
R-cuadrado 0.015 0.020 0.021 0.024
Controlese Si Si Si Si
Errores estándar robustos en paréntesis. *** p<0.01, ** p<0.05, * p<0.1. Notas: La muestra completa cuenta con 1739 encuestas realizadas a docentes de las cuales 884 se realizaron en colegios de control y 855 en colegios de tratamiento, los cuales representan 171 colegios de tratamiento y 178 colegios de control. b. Los colegios de control se seleccionaron a partir de la metodología de Propensity Score Matching (PSM) utilizando el vecino más cercano como método de emparejamiento, con este método se logra asignar 3 colegios de control a cada tratamiento. c. Los colegios de tratamiento son una muestra representativa de la cohorte 3 de RLT. a. La respuesta está en un rango entre 1 y 4, se asignan valores a las posibles respuestas de la siguiente manera: (i) Muy mala toma el valor de 1, (ii) Mala toma el valor de 2, (iii) Buena toma el valor de 3 y (iv) Excelente toma el valor de 4 b. Las horas de dedicación no tienen un rango específico de respuesta, hace referencia a las horas exactas que el docente dedica a cada actividad. c. d. La respuesta está en un rango entre 1 y 4, se asignan valores a las posibles respuestas de la siguiente manera: (i) Completamente en desacuerdo toma el valor de 1, (ii) En desacuerdo toma el valor de 2, (iii) De acuerdo toma el valor de 3 y (iv) Completamente de acuerdo toma el valor de 4. e. los controles que se utilizan en las estimaciones son: el tipo de vinculación laboral, el estatuto docente al que pertenece la persona, el nivel educativo, el sexo, los años dentro de la Institución Educativa y las horas de permanencia dentro de la Institución. Los puntajes están estandarizados

Referencias:   Anderson, J.B. (2008). Principals’ Role and Public Primary Schools’ Effectiveness in Four Latin American Cities. The Elementary School Journal, Vol. 109, No. 1 (September 2008), pp. 36-60.   Blimpo, M., Evans, D., and Lahire, N. (2015). Parental Human Capital and Effective School Management: evidence from The Gambia. Working Paper No. 7238. World Bank Group.   Bloom, N., Lemos, R., Sadun, R., Van Reenen, J. (2015). Does Management Matter in Schools.The Economic Journal, 125 (May), pp 647-674.   Branch, G., Hanushek, E. y Rivkin, S. (2012) Estimating the Effect of Leaders on Public Sector Productivity: The Case of School Principals. National Bureau of Economic Research, Working Paper 17803. Harker, A., Molano, A., y Gómez, M.C. (2018). La gestión de los rectores y su relación con calidad de la educación en Colombia. Documento de Trabajo.   Pont, B., Nusche, D., Moorman, D. (2008). Improving school leadership. Volume 1 & 2. Organization for Economic Co-operation and Development – OECD.     [i] La medición de la calidad de las prácticas de gestión en estas áreas la hicimos utilizando la Encuesta Mundial de Gestión (World Management Survey – WMS), desarrollada por Bloom et al. (2015).