Glosario

* de Gertler, Martinez, Premand, Rawlings y Vermeersch (2010) Evaluación de Impacto en la Práctica, Washington, DC: Banco Mundial

Actividad. Medidas adoptadas o trabajo realizado para generar productos específicos. Implica la movilización de insumos tales como recursos financieros, asistencia técnica o de otro tipo.

Análisis de costo-beneficio. Cálculos de los costos y beneficios previstos en el programa, que se usan para valorar o evaluar propuestas de proyectos antes de llevarlos a cabo. Un análisis costo-beneficio también se puede realizar después de una evaluación de impacto si se dispone de información sobre los costos y si los beneficios se pueden cuantificar en términos monetarios.

Asignación aleatoria o diseños de controles aleatorios. La asignación aleatoria se considera el método más robusto para la estimación de contrafactuales y se presenta con frecuencia como la “regla de oro” de la evaluación de impacto. Con este método, se selecciona aleatoriamente a los beneficiarios de una intervención, de manera que cada uno de los individuos de la población elegible tenga la misma posibilidad de beneficiarse del programa. Con un tamaño suficientemente grande de muestra, el proceso de asignación aleatoria garantiza que las características, tanto observadas como no observadas, de los grupos de tratamiento y control sean equivalentes, lo que resuelve cualquier sesgo en la selección.

Baseline. Preintervention, ex-ante. The situation prior to an intervention, against which progress can be assessed or comparisons made. Baseline data are collected before a program or policy is implemented to assess the “before” state.

Before-and-after comparison. Also known as “pre-post comparison” or “reflexive comparison,” a before-and-after comparison attempts to establish the impact of a program by tracking changes in outcomes for program beneficiaries over time, using measurements before and after the program or policy is implemented.

Bias. The bias of an estimator is the difference between an estimator’s expectation and the true value of the parameter being estimated.

Cadena de resultados. La cadena de resultados determina la lógica del programa y explica la manera en que se logra el objetivo final de desarrollo. Muestra las relaciones entre los insumos, las actividades, los productos y los resultados.

Cálculos de potencia. Los cálculos de potencia indican el tamaño de la muestra necesario para que una evaluación detecte cierto efecto mínimo deseado. Los cálculos de potencia dependen de parámetros como la potencia de la estimación (o la probabilidad de un error de tipo II), el nivel de significancia, la varianza y la correlación intragrupos (intraconglomerados) del resultado de interés de la evaluación.

Comparación antes-después. Este tipo de comparación, conocida también como “comparación previa-posterior” o “comparación reflexiva”, intenta establecer el impacto de un programa haciendo un seguimiento de los cambios en los resultados para los beneficiarios del programa a lo largo del tiempo, utilizando mediciones anteriores y posteriores a la implementación del programa o la política.

Conglomerado (o cluster). Un conglomerado o cluster es un grupo de unidades con algún tipo de similitud. Por ejemplo, en un muestreo de niños en edad escolar, los que asisten a la misma escuela pertenecen a un mismo conglomerado o cluster porque comparten el mismo centro escolar, los mismos profesores y viven en el mismo barrio.

Contrafactual. El contrafactual es una estimación de cuál habría sido el resultado (Y) en las variables de interés para un participante en el programa, si este no hubiera tomado el programa (P). Por definición, el contrafactual no se puede observar. Por lo tanto, hay que estimarlo utilizando los grupos de comparación o control.

Correlación intraconglomerado. La correlación intraconglomerado es la correlación (o similitud) en los resultados o las características de las unidades que pertenecen al mismo conglomerado. Por ejemplo, los niños que asisten a la misma escuela tendrán, en muchas ocasiones, características similares o correlaciones en términos de la zona de residencia y el contexto socioeconómico.

Costo-efectividad. La determinación de la costo-efectividad consiste en comparar intervenciones similares de acuerdo con los costos y la eficacia. Por ejemplo, las evaluaciones de impacto de varios programas educativos permiten a los encargados de tomar decisiones políticas adoptar decisiones más informadas acerca de qué intervención puede lograr los objetivos deseados más eficazmente, teniendo en cuenta el contexto y las limitaciones particulares.

Datos censales. Los datos que cubren todas las unidades de la población de interés (o universo). Se diferencia de los datos de encuestas, que solo cubren una parte de la población.

Datos de encuesta. Los datos correspondientes a una muestra de la población de interés. Se diferencia de los datos censales.

Desgaste de la muestra (attrition). El desgaste de la muestra se produce cuando se pierden algunas unidades de la muestra entre una ronda de datos y la siguiente, por ejemplo, cuando hay personas que emigran y no se las localiza de una ronda a la siguiente. El desgaste de la muestra es un caso de falta de respuesta de la unidad. El desgaste de la muestra puede sesgar la evaluación de impacto si se correlaciona con el tratamiento.

Diferencias en diferencias. También conocida como “doble diferencia” o “DD”. El método de diferencias en diferencias estima el contrafactual del cambio en el resultado de interés antes y después del programa en el grupo de tratamiento mediante el cambio de los mismos resultados de interés antes y después del programa en el grupo de comparación. Este método nos permite tener en cuenta y hacer desaparecer cualquier diferencia constante en el tiempo entre los grupos de tratamiento y de comparación. Las dos diferencias que se calculan son por lo tanto entre los momentos de antes y después, y entre los grupos de tratamiento y de comparación.

Diseño de regresión discontinua (DRD) (Regression Discontinuity Design, RDD). El diseño de regresión discontinua es un método de evaluación no experimental. Es adecuado para los programas que emplean un índice continuo para clasificar a los posibles beneficiarios y que incorporan un umbral al índice para determinar si dichos beneficiarios reciben o no el programa. Este umbral para la elegibilidad al programa constituye un punto de división entre los grupos de tratamiento y los grupos de comparación.

Efecto. Cambio intencionado o no intencionado en las variables, que se debe, directa o indirectamente, a una intervención.

Efecto de desbordamiento (spillover effect). Denominado también contaminación del grupo de comparación. Se produce un efecto de desbordamiento cuando el grupo de comparación se ve afectado por el tratamiento administrado al grupo de tratamiento, a pesar de que el tratamiento no se ha administrado directamente al grupo de comparación. Si el efecto de desbordamiento sobre el grupo de comparación es negativo (es decir, si sufren como consecuencia del programa), la diferencia directa entre los resultados del grupo de tratamiento y los grupos de comparación provocará una sobreestimación del impacto del programa. Por el contrario, si el efecto de desbordamiento sobre el grupo de comparación es positivo (es decir que resultan beneficiados), se producirá una subestimación del impacto del programa.

Efecto Hawthorne. El “efecto Hawthorne” se produce cuando, por el simple hecho de ser observadas, las unidades se comportan de manera diferente.

Efecto John Henry. El efecto John Henry se produce cuando las unidades de la comparación se esfuerzan más para compensar que no les han ofrecido tratamiento. Cuando se comparan las unidades tratadas con las unidades de la comparación que se esfuerzan más, la estimación del impacto del programa resulta sesgada; es decir, estimamos un impacto menor del programa en comparación con el impacto real que obtendríamos si las unidades de la comparación no realizaran un esfuerzo adicional.

Efecto mínimo deseado. El cambio mínimo en los resultados que justificaría la inversión que se ha realizado en una intervención, teniendo en cuenta no solo el costo del programa y los beneficios que aporta, sino también el costo de oportunidad que conlleva no invertir los fondos en una intervención alternativa. El efecto mínimo deseado es un insumo para los cálculos de la potencia; es decir, las muestras de la evaluación tienen que ser suficientemente grandes para detectar al menos el efecto mínimo deseado con suficiente potencia.

Encuesta de seguimiento. También conocida como “posterior a la intervención” o encuesta “ex post”. Una encuesta realizada después del comienzo del programa, una vez que los beneficiarios lleven algún tiempo beneficiándose de este. Una evaluación de impacto puede incluir varias encuestas de seguimiento.

Error de tipo I. El error que se comete cuando se rechaza una hipótesis nula a pesar de su validez. En el contexto de una evaluación de impacto, se comete un error del tipo I cuando una evaluación concluye que un programa ha tenido un impacto (es decir, se rechaza la hipótesis nula del impacto), a pesar de que el programa no ha tenido impacto en realidad (es decir, la hipótesis nula es válida). El nivel de significancia determina la probabilidad de que se cometa un error de tipo I.

Error de tipo II. El error que se comete cuando se acepta (en lugar de rechazar) una hipótesis nula a pesar de que no es válida. En el contexto de una evaluación de impacto, se comete un error de tipo II cuando se concluye que un programa no ha tenido impacto (es decir, no se rechaza la hipótesis nula del impacto), a pesar de que el programa sí ha tenido impacto (es decir, la hipótesis nula no es válida). La probabilidad de cometer un error de tipo II equivale a 1 menos el nivel de potencia.

Estimador. En estadística, un estimador es una función que se emplea para calcular un parámetro desconocido de la población; una estimación es el resultado de la aplicación de esta función a una muestra particular de datos.

Estimador de la intención de tratar (IDT). El estimador de la IDT es la diferencia del indicador del resultado (Y) entre el grupo al que se le ha ofrecido el programa (o al que se intentó tratar) y el grupo al que no se le ha ofrecido el programa. Se diferencia del estimador del tratamiento en los tratados.

Evaluación. Las evaluaciones son exámenes periódicos y objetivos de un proyecto, programa o política programada, en curso o completada. Las evaluaciones se usan para responder a preguntas específicas, relacionadas con frecuencia con el diseño, la ejecución y los resultados.

Evaluación de impacto. Una evaluación de impacto es una evaluación que intenta establecer una relación causal entre un programa o una intervención y una serie de resultados. Una evaluación de impacto pretende responder a la pregunta de si el programa es responsable de los cambios en los resultados de interés. Se diferencia de la evaluación de proceso.

Evaluación de proceso. Una evaluación de proceso es una evaluación que intenta establecer el nivel de calidad o éxito de los procesos de un programa; por ejemplo, la idoneidad de los procesos administrativos, el grado de aceptación de los beneficios del programa, la claridad de la campaña informativa, las dinámicas internas de las organizaciones ejecutoras, sus instrumentos de políticas, sus mecanismos de prestación de servicios, sus prácticas de gestión y las relaciones entre ellas. Se diferencia de la evaluación de impacto.

Falta de respuesta. En una encuesta, cuando faltan datos o están incompletos. La falta de respuesta a nivel de unidades ocurre cuando no se dispone de información para algunas unidades de la muestra, es decir, cuando la muestra real es diferente de la muestra programada. El desgaste de la muestra es una forma de falta de respuesta a nivel de unidades. La falta de respuesta a nivel de variables se produce cuando los datos de algunas unidades de la muestra están incompletos en algún momento. La falta de respuesta puede provocar sesgo en los resultados de la evaluación si está asociada con el tratamiento.

Hipótesis. Una hipótesis es una explicación propuesta de un fenómeno observable. Véase también hipótesis nula e hipótesis alternativa.

Hipótesis alternativa. En la evaluación de impacto, la hipótesis alternativa es normalmente la hipótesis de que la hipótesis nula es falsa; en otras palabras, que la intervención tiene un impacto sobre los resultados.

Hipótesis nula. Una hipótesis nula es una hipótesis que puede ser falsificada sobre la base de los datos observados. La hipótesis nula propone normalmente una posición general o por defecto. En la evaluación de impacto, la hipótesis nula suele ser que no hay diferencia entre los grupos de tratamiento y de control, o dicho de otro modo, que la intervención no tiene impacto sobre los resultados.

Indicador. Un indicador es una variable que mide un fenómeno de interés para el evaluador. El fenómeno puede ser un insumo, un producto, un resultado, una característica o un atributo.

Insumos (o inputs). Los recursos financieros, humanos y materiales que se emplean en la implementación de un programa o una intervención de desarrollo.

John Henry effect. The John Henry effect happens when comparison units work harder to compensate for not being offered treatment. When one compares treated units to those “harder-working” comparison units, the estimate of the impact of the program will be biased; that is, we will estimate a smaller impact of the program than the true impact that we would find if the comparison units did not make the additional effort.

Marco muestral. La lista más exhaustiva de unidades de la población de interés (universo) que puede obtenerse. Las diferencias entre el marco muestral y la población de interés generan un sesgo (en el muestreo). Cuando existe un sesgo en la cobertura, los resultados de la muestra no tienen validez externa para la totalidad de la población de interés.

Métodos de selección aleatoria. Los métodos de selección aleatoria consisten en el conjunto de métodos que utilizan la asignación aleatoria para identificar el contrafactual. Entre ellos están la asignación aleatoria del tratamiento, la oferta aleatoria del tratamiento y la promoción aleatoria.

Monitoreo (o seguimiento). El monitoreo es el proceso continuo de recolección y análisis de información para valorar el nivel de desempeño de un proyecto, un programa o una política. Utiliza principalmente datos administrativos para comparar el desempeño con los resultados previstos, hacer comparaciones entre programas y analizar tendencias en el tiempo. El monitoreo se centra habitualmente en los insumos, las actividades y los productos, aunque ocasionalmente también incluye los resultados. El seguimiento se utiliza para informar la toma de decisiones rutinarias, especialmente de gestión.

Muestra. En estadística, una muestra es un subgrupo de una población. Normalmente, la población es muy numerosa, lo que hace impracticable o imposible realizar un censo o una enumeración completa de todas las unidades en la población. En su lugar, los investigadores pueden seleccionar un subgrupo representativo de la población (utilizando un marco muestral) y recopilar estadísticas sobre la muestra; estas estadísticas pueden usarse para hacer inferencias o extrapolarlas a la población. El proceso se denomina muestreo.

Muestra aleatoria. La mejor manera de evitar una muestra sesgada o no representativa es seleccionar una muestra aleatoria. Una muestra aleatoria es una muestra probabilística en la que cada unidad de la población muestreada tiene la misma probabilidad de ser seleccionada. Tenga en cuenta que la probabilidad de selección no tiene que ser la misma para todos los individuos de la población; cuando este es el caso, la muestra se llama muestra de probabilidad desigual. Además, si los individuos se seleccionan independientemente unos de otros, la muestra se llama muestra aleatoria simple.

Muestra de conglomerados o clusters. Una muestra obtenida extrayendo una muestra aleatoria de conglomerados o clusters, después de lo cual se pueden seleccionar todas las unidades que forman los conglomerados en la muestra, o se puede extraer aleatoriamente una serie de unidades dentro de cada conglomerado seleccionado. Cada conglomerado tiene una probabilidad definida de resultar seleccionado, y las unidades dentro de un conglomerado seleccionado también tienen una probabilidad definida de resultar seleccionadas.

Muestra estratificada. Se obtiene dividiendo a la población de interés (marco muestral) en grupos (por ejemplo, hombres y mujeres), y extrayendo a continuación una muestra aleatoria dentro de cada grupo. Una muestra estratificada es una muestra probabilística: cada unidad dentro de cada grupo (o estrato) tiene la misma probabilidad de ser extraída.

Muestreo. El proceso mediante el cual se extraen unidades de un marco muestral producido a partir de la población de interés (universo). Se pueden utilizar varios procedimientos alternativos de muestreo. Los métodos de muestreo probabilístico son los más rigurosos porque asignan una probabilidad bien definida a la selección de cada unidad. Entre los métodos de muestreo probabilístico están el muestreo aleatorio simple, el muestreo aleatorio estratificado y el muestreo por conglomerados o clusters. El muestro no probabilístico (como el muestreo de conveniencia o por juicio) puede generar errores de muestra.

Nivel de significancia. El nivel de significancia se señala habitualmente con el símbolo griego α(alfa). Los niveles más habituales de significancia son del 5% (0,05), 1% (0,01) y 0,1% (0,001). Si una prueba de significancia resulta en un valor p inferior al nivel α, se rechaza la hipótesis nula. Dichos resultados se definen informalmente como “estadísticamente significativos”. Cuanto menor sea el nivel de significancia, mayor será el nivel de evidencia. La elección del nivel de significancia es una tarea arbitraria, pero en el caso de muchas aplicaciones, se elige un nivel del 5% simplemente porque se trata de un nivel convencional.

Oferta aleatoria. La oferta aleatoria es un método para identificar el impacto de una intervención. Con este método, se ofrece aleatoriamente a los beneficiarios una intervención, y cada uno de ellos tiene la misma posibilidad de beneficiarse del programa. Aunque el administrador del programa puede seleccionar aleatoriamente a las unidades a las que va a ofrecer el tratamiento entre el universo de unidades elegibles, no puede obtener un nivel de cumplimiento perfecto: no puede forzar a ninguna unidad a participar o aceptar el tratamiento y no puede negar la participación de una unidad que insista en ello. Con este método, la oferta aleatoria del programa se usa como una variable instrumental de la participación real en el programa.

Pareamiento (o emparejamiento). El pareamiento, “matching” o emparejamiento consiste en un método de evaluación no experimental que usa grandes series de datos y técnicas estadísticas complejas para construir un grupo de comparación para cierto grupo de tratamiento.

Población de interés. El conjunto de unidades elegibles para una intervención o un tratamiento. La población de interés se denomina a veces el universo.

Potencia. La potencia estadística es la probabilidad de detectar un impacto cuando este se haya producido. La potencia de una prueba es equivalente a 1 menos la probabilidad de que exista error de tipo II, y va de 0 a 1. Los niveles más habituales de potencia son 0,8 y 0,9. Altos niveles de potencia son más conservadores y disminuyen la probabilidad de que exista un error de tipo II. Una evaluación de impacto tiene una potencia elevada si existe poco riesgo de que no se detecten los impactos reales del programa, es decir, de cometer un error de tipo II.

Potencia estadística. La potencia de un test estadístico es la probabilidad de que se rechace la hipótesis nula cuando se confirme la hipótesis alternativa (es decir, que no cometerá un error de tipo II). Con el aumento de la potencia se reducen las probabilidades de un error de tipo II. La probabilidad de un error del tipo II se define como el riesgo de negativos falsos (β). Por lo tanto, la potencia equivale a 1 − β.

Producto. Los productos son los bienes de capital y servicios que se ofrecen directamente por una intervención. Los productos también pueden incluir cambios resultantes de la intervención, pertinentes para el logro de los resultados.

Promoción aleatoria. La promoción aleatoria es un método similar a la oferta aleatoria. En lugar de seleccionar aleatoriamente las unidades a las que se va a ofrecer el tratamiento, se selecciona aleatoriamente a las unidades entre las que se va a promocionar el tratamiento. Así, el programa se mantiene abierto a todas las unidades.

Regresión. En estadística, el análisis de regresión incluye cualquier técnica para la formulación de modelos y el análisis de diversas variables, cuando se hace referencia a la relación entre una variable dependiente y una o más variables independientes o explicativas. En el caso de la evaluación de impacto, el análisis de regresión estima cómo el valor esperado del indicador del resultado de la intervención (Y; variable dependiente) cambia en función de pertenecer al grupo de tratamiento o de comparación (P; variable independiente), mientras las otras características de los beneficiarios (otras variables independientes) se mantienen fijas.

Resultado. Puede ser intermedio o final. El resultado (de interés de la intervención) es un efecto de interés que se genera a través de una combinación de factores de oferta y demanda. Por ejemplo, si una intervención conlleva el aumento de la oferta de servicios de inmunización, el número real de vacunaciones sería un resultado de interés de la intervención, ya que depende no solo de la oferta de vacunas, sino también del comportamiento de los beneficiarios previstos: ¿se presentarán en el lugar de servicio para que los vacunen? Los resultados finales o de largo plazo son más indirectos. Este factor más indirecto puede interpretarse como una dimensión temporal (lleva mucho tiempo llegar al resultado) o una dimensión causal (son necesarios muchos resultados intermedios para alcanzar el resultado final).

Sesgo. El sesgo de un estimador es la diferencia entre la expectativa del estimador y el valor real del parámetro que se está estimando.

Sesgo de selección. El sesgo de selección se produce cuando las razones por las que cada individuo participa en un programa se correlacionan con los resultados de interés de la intervención. Este sesgo se registra normalmente cuando el grupo de comparación no es elegible o se autoexcluye del tratamiento.

Tratamiento en los tratados (efecto del). Denominado también el estimador del tratamiento en los tratados (TET). El efecto del tratamiento en los tratados es el impacto del tratamiento sobre las unidades que se han beneficiado realmente del tratamiento. Se diferencia de la intención de tratar (IDT).

Validez externa. Tener validez externa significa que el impacto causal descubierto en la evaluación de impacto se puede generalizar al universo de todas las unidades elegibles. Para que una evaluación tenga validez externa, es necesario que la muestra de la evaluación sea representativa del universo de unidades elegibles.

Validez interna. El hecho de que una evaluación de impacto tenga validez interna significa que utiliza un grupo de comparación válido, es decir, un grupo de comparación que produce una estimación válida del contrafactual.

Variable. En la terminología estadística, una variable es una característica de la población de estudio.

Variable instrumental. Una variable instrumental es una variable que se utiliza para estimar el impacto causal de un programa cuando la participación en este está determinada parcialmente por las características de los posibles beneficiarios. Una variable instrumental debe contar con dos características para poder considerarse valida: 1) debe estar correlacionada con la participación en el programa, y 2) no puede estar correlacionada con los resultados (Y) (aparte de mediante su participación en el programa) o con variables no observables.

Narrow

* de Gertler, Martinez, Premand, Rawlings y Vermeersch (2010) Evaluación de Impacto en la Práctica, Washington, DC: Banco Mundial