SciELO - Scientific Electronic Library Online

 
 número17Un problema en la estimación del parámetro de forma del modelo normal - asimétricoDescomposición tensorial Tucker3 aplicado a tablas de contingencias de tres vías índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Artigo

Indicadores

    Links relacionados

    • Não possue artigos citadosCitado por SciELO
    • Não possue artigos similaresSimilares em SciELO

    Bookmark

    Revista Varianza

    versão impressa ISSN 9876-6789

    Revista Varianza  n.17 La Paz nov. 2020

     

    ARTÍCULOS DE INVESTIGACIÓN

     

    Regresión logística con interceptos aleatorios. Aplicación
    a datos de panel

     

     

    Dr(c) Ramiro Coa Clemente*
    * Ex Director de Investigación de la Unidad de Análisis y Política
    Social (UDAPSO) clementecoa@gmail.com

     

     


    Resumen

    En este artículo se presenta sucintamente el modelo lineal generalizado de efectos mixtos, un modelo de mucha utilidad para abordar el análisis estadístico en profundidad, en diferentes campos. Un caso particular de este modelo es el denominado regresión logística con interceptos aleatorios, un modelo alternativo para el análisis de datos de panel. Se ilustra su aplicación en el ámbito de la nutrición. El propósito es determinar si fumar durante el embarazo afecta o no el bajo peso al nacer. Los resultados sugieren un efecto muy significativo del consumo de tabaco durante el embarazo sobre el bajo peso al nacer.

    Palabras clave: Efectos mixtos, Interceptos aleatorios, Datos de panel


    Abstract

    This article succinctly presents the generalized linear model of mixed effects, a very useful model to address in-depth statistical analysis in different fields. A particular case of this model is the so-called logistic regression with random intercepts, an alternative model for the analysis of panel data. Its application in the field of nutrition is illustrated. The purpose is to determine whether or not smoking during pregnancy affects low birth weight. The results suggest a very significant effect of tobacco use during pregnancy on low birth weight.

    Keywords: Mixed Effects, Random Intercepts, Panel Data


     

     

    1. EL MODELO LINEAL GENERALIZADO DE EFECTOS MIXTOS

    Un Modelo Lineal de Generalizado de Efectos Mixtos (MLGEM) tiene la siguiente forma general:

    donde Y es un vector de respuestas de dimensión n*1 con función de distribución de probabilidad F, X es matriz de covariables n*p asociado al vector de efectos fijos β, Z es una matriz de covariables n*q asociado al vector de efectos aleatorios u, β es vector de efectos fijos p*1, u es vector de efectos aleatorios q*1, η = Xβ + Zu es el predictor lineal, g(.) es la función de enlace para la cual se supone que existe su función inversa g-1(.) de modo que E(Y/X, u) = g-1(Xβ+Zu) = h(η) = µ donde µ es el vector de medias de dimensión n*1. Al considerar varias definiciones para g(.) y F se tiene una amplia variedad de modelos, entre los cuales se encuentra el modelo de regresión logística con interceptos aleatorios. Generalmente se asume que el vector de efectos aleatorios u tiene una distribución normal multivariada con media 0 y matriz de varianzas-covarianzas ∑ de dimensión q*q, es decir, u~Nq(0,∑). Los efectos aleatorios no son estimados directamente, estos son caracterizados por sus varianzas, denominados comúnmente componentes de varianza. Estos componentes de varianza son elementos de la matriz de varianzas-covarianzas G = Var(u).

    El MLGEM permite modelar la correlación dentro de un cluster o conglomerado. Esto es, los sujetos dentro de un mismo cluster podrían estar correlacionados producto de un intercepto aleatorio compartido, producto de una pendiente aleatoria compartida, o como consecuencia de ambas situaciones.

    Cuando se tiene datos clusterizados, no es conveniente considerar el total de las n observaciones al mismo tiempo, por el contrario, es ventajoso organizar el modelo mixto como una serie de M clusters independientes. La formulación apropiada del modelo es:

    donde j=1, ...,M y el cluster j consiste de nj observaciones. El vector de respuestas Yj es de dimensión nj*1 e incluye todas las observaciones correspondientes al j-ésimo cluster. Lo mismo para las matrices Xj, Z y el vector uj. Nuevamente se asume que el vector de efectos aleatorios uj está distribuido normalmente con media 0 y matriz de varianzas-covarianzas ∑ de dimensión q*q, es decir uj ~ Nq (0,∑). Este modelo es el propuesto por Laird y Ware (1982) y ofrece dos ventajas importantes. Primero, se puede especificar los términos de los efectos aleatorios con facilidad. Si los clusters son escuelas, se puede especificar simplemente un efecto aleatorio al nivel de la escuela. Segundo, el modelo se puede generalizar fácilmente a más de un conjunto de efectos aleatorios. Por ejemplo, si las clases están anidadas dentro de escuelas, el modelo puede ser generalizado para incluir efectos aleatorios a nivel de escuelas y a nivel de clases dentro de escuelas.

    La clave para ajustar modelos mixtos cae en la estimación de los componentes de varianza. Existen muchos métodos para tal estimación, uno de ellos es el de máxima verosimilitud (MV). Si f(Yj, uj) representa la función de distribución conjunta de Yj y uj, la distribución marginal de Yj es dada por

    A partir de esta distribución marginal se puede deducir la función de verosimilitud para el cluster j, la cual queda expresada como

    Como se supuso que los M clusters son independientes, la función de verosimilitud total para el vector de respuestas Y es dada por

    Para aproximar la integral que aparece en Lj (β,Z) se recurre a métodos numéricos. Primero, se hace un cambio de variable para transformar la integral multivariable en un conjunto anidado de integrales univariables; segundo, cada integral univariable puede entonces ser evaluada usando la cuadratura Gauss-Hermite.

     

    2. REGRESIÓN LOGÍSTICA CON INTERCEPTOS ALEATORIOS

    Un caso particular del modelo lineal generalizado de efectos mixtos es el modelo de regresión logística con interceptos aleatorios. El modelo es expresado como:

    donde el efecto aleatorio uj es una variable unidimensional con distribución normal, es decir, uj~ N(0 , σ2). Se asume que u1...,uM son independientes.

    Para precisar algunas ideas, consideremos el siguiente ejemplo. Asumamos que la variable respuesta representa la ocurrencia o no de cáncer de pulmón y la variable explicativa es la condición de fumador, un factor de riesgo muy importante. Supongamos también que la muestra consiste de M submuestras conducidas en diferentes departamentos del país. Sea j el subíndice asociado al departamento ei ala persona. Entonces la variable binaria Yij representa la presencia o ausencia de cáncer de pulmón (Yij = 1 = con cáncer; Yij = 0 = sin cáncer) y Xij representa la condición de fumador de la i-ésima persona en el j-ésimo departamento (Xij = 1 = fumador ;Xij = 0 = no fumador) .Sea n el número de personas encuestadas en el j-ésimo departamento. La regresión logística estándar aplicada al conjunto de datos {Yij, Xij }, j = 1,...,M, i=1, ...,n, implícitamente asume que la incidencia de cáncer de pulmón es constante para todos los departamentos. Claramente este supuesto puede ser incorrecto porque los departamentos pueden tener diferentes condiciones ambientales, diferentes campañas contra el tabaco, diferentes tradiciones, diferentes políticas de salud y diferente población por edad, entre otros. Estos factores pueden conducir a diferentes incidencias de cáncer entre los departamentos. Por tanto, al asumir que esta incidencia es la misma se puede obtener conclusiones incorrectas con relación al efecto de fumar. No cabe duda que es más coherente y realista asumir que los interceptos difieran de un departamento a otro, por lo que un modelo más apropiado es el expresado anteriormente.

    La función de verosimilitud - y consecuentemente la función log-verosimilitud - es un caso particular de la anterior función de verosimilitud correspondiente al MLGEM. La función log-verosimilitud para la regresión logística con interceptos aleatorios queda expresado como

    Para estimar los parámetros β y σ2 se puede usar el siguiente procedimiento iterativo

    donde

    y las tres integrales están definidas como

    Notar que la integral I3j es un vectorp *1 y que H, Ikj para k=1,2,3, j=1,., M son calculados en los valores actuales, β = βsy σ = σs.

     

    3. APLICACIÓN A DATOS DE PANEL

    Consideremos los datos de panel donde se tiene 648 clusters (muj eres en edad fértil) y en cada cluster se observa la condición de peso al nacer para cada uno de tres nacimientos. Luego se tiene un total de 1944 observaciones. La variable respuesta es la condición de bajo peso al nacer. Los nacimientos con bajo peso son los que tuvieron un peso de 2500 gramos o menos al momento de nacer. Una de las variables explicativas consideradas en el análisis es la condición de la madre de haber fumado o no durante cada embarazo. Adicionalmente se incluyeron en el modelo otras variables que, de acuerdo la experiencia, pueden afectar el peso al nacimiento. Estas variables son la edad de la madre, el estado civil de la madre, la educación de la madre, el control prenatal, momento del primer control prenatal, calidad del control prenatal y el sexo del recién nacido. El propósito del análisis es determinar si el haber fumado durante el embarazo tiene un efecto significativo sobre la probabilidad de nacer con bajo peso.

    En los siguientes dos gráficos se exhiben las relaciones entre la variable peso al nacer y las variables condición de haber fumado durante el embarazo y educación de la madre. En términos generales se puede apreciar que el peso al nacer de los recién nacidos disminuye cuando la madre fuma durante el embarazo. Al relacionar el peso al nacer con la educación de la madre se observa que desde alrededor de los 12 años de educación comienza a incrementarse suavemente el peso al nacer, sin embargo, previo a este número de años de educación se observa incluso un leve descenso en el peso de los recién nacidos.

    El modelo de regresión logística de interceptos aleatorios usado para el análisis de los datos de panel es el siguiente

    donde Yij es la condición de bajo peso al nacer del i-ésimo nacimiento para la j-ésima madre; Xij es el vector fila de variables explicativas para el i-ésimo nacimiento de la j-ésima madre; β es el vector de coeficientes de efectos fijos y uj es el efecto aleatorio de la i-ésima madre, que hace que el modelo tenga interceptos aleatorios. Los resultados se exhiben en el siguiente cuadro.

    Recordemos que el objetivo del ejemplo es principalmente determinar si haber fumado durante el embarazo tiene un efecto significativo sobre la probabilidad de nacer con bajo peso. De los resultados expuestos en el cuadro se puede concluir que el efecto de fumar sobre el bajo peso al nacer es altamente significativo. Cuando la madre fuma, la chance de tener bajo peso al nacer es más de tres veces que cuando la madre no fuma. Por

    otra parte, como ya se advirtió en el gráfico, la educación de la madre no tiene un efecto significativo sobre el bajo peso al nacer. Sin embargo, la calidad del cuidado prenatal tiene un efecto altamente significativo sobre el bajo peso al nacer. Cuando el cuidado prenatal es de baja calidad, la chance de tener bajo peso al nacer es seis veces más que cuando el cuidado prenatal es adecuado.

     

    4. ALGUNAS CONSIDERACIONES

    El modelo lineal generalizado de efectos mixtos se caracteriza por incluir tanto efectos fijos como efectos aleatorios. La introducción de efectos aleatorios permite realizar el análisis de datos con estructura más compleja y, consecuentemente, permite un análisis más próximo de la compleja realidad. En la modelación se puede permitir, por ejemplo, que la probabilidad de nacer con bajo peso varíe de una madre a otra. En cambio, con un modelo lineal generalizado estándar no es posible realizar este tipo de análisis.

    Si bien el modelo lineal generalizado de efectos mixtos permite un análisis más profundo de los datos, la maximización de la función log-verosimilitud para estimar los coeficientes llega a ser bastante compleja, puesto que involucra la solución de integrales complejas como la integral logística-normal. Para solucionar estas integrales se recurre a métodos de aproximación numérica. Principalmente se recurre al método de cuadratura de Gauss-Hermite.

    Un modelo particular y muy importante de la familia de modelos lineales generalizados de efectos mixtos es el modelo de regresión logística con interceptos aleatorios. Este modelo es útil para analizar datos de panel.

     

    BIBLIOGRAFÍA

    1.    Pinheiro, J.C. and Bates, D.M. (2000). Mixed-Eífects Models in S and S-PLUS. New York: Springer        [ Links ]

    2.   McCullagh, P. and Nelder, J. A. (1989). Generalized linear models, Second Ed. Chapman and Hall/CRC, London.        [ Links ]

    3.   Laird, N. M. and Ware, J. H. (1982). Random-Effects Models for Longitudinal Data; Biometrics, Vol. 38, No. 4, pp. 963-974        [ Links ]