Descomposición tensorial Tucker3 aplicado a tablas de contingencias de tres vías

Serviços Personalizados

Artigo

Indicadores

Links relacionados

Citado por SciELO
Similares em SciELO

Bookmark

|Mais

Revista Varianza

versão impressa ISSN 9876-6789

Revista Varianza n.17 La Paz nov. 2020

ARTÍCULOS DE INVESTIGACIÓN

Descomposición tensorial Tucker3 aplicado a tablas
de contingencias de tres vías

M. Sc. Lucy Gabriela Cuarita Ajno^*
^* Facultad de Ciencias Puras y Naturales de la Universidad Mayor de
San Andrés - Bolivia lcuarita@fcpn.edu.bo

Resumen

El análisis de datos tensorial se encarga del estudio de datos obtenidos de la medición de más de una variable sobre un conjunto de individuos u objetos, los cuales son ordenados en un tensor de orden superior y donde interesa fundamentalmente la descomposición del tensor en componentes mucho más simples, de tal manera que faciliten la interpretación de los datos. En el campo del Análisis Multivariante, en particular, la técnica del Análisis de Correspondencias Múltiple permite identificar la interacción de los niveles correspondientes a un conjunto de variables de estudio, transformando la tabla de contingencias para luego aplicar la técnica del Análisis de Correspondencias Simple. Por otro lado, el modelo tensorial Tucker3 es un método de descomposición tensorial, que permite modelar la interacción entre las vías de un tensor de tercer orden y de sus componentes, preservando la estructura original de los datos. Hoy en día, los modelos tensoriales son una alternativa en el análisis de datos multivariantes, aunque la mayoría de los trabajos se encuentran en el campo del análisis de datos de tres vías, existen investigaciones que indican que la metodología continuará en ascenso mientras las estructuras de datos sean cada vez más complejas y los investigadores requieran un análisis integral de los datos.

Palabras clave: Estadístico de Pearson, Inercia, Interacción, Descomposición Tensorial, Modelo Tucker3, Tensor.

Abstract

Tensor data analysis is responsible for the study of data obtained from the measurement of more than one variable on a set of individuals or objects, which are arranged in a higher order tensor and where the decomposition of the tensor into much more components is of fundamental interest. simple, in such a way that they facilitate the interpretation of the data. In the field of Multivariate Analysis, in particular, the Multiple Correspondence Analysis technique allows identifying the interaction of the levels corresponding to a set of study variables, transforming the contingency table and then applying the Simple Correspondence Analysis technique. On the other hand, the Tucker3 tensor model is a tensor decomposition method that allows modeling the interaction between the pathway s of a third order tensor and its components, preserving the original structure of the data. Today, tensor models are an alternative in multivariate data analysis, although most of the work is in the field of three-way data analysis, there is research that indicates that the methodology will continue to rise as long as the structures of data become increasingly complex and researchers require a comprehensive analysis of the data.

Keywords: Pearson 's statistic, Inertia, Interaction, Tensor Decomposition, Tucker3 Model, Tensor.

I. INTRODUCCIÓN

Una tabla de contingencias de tres vías, N, es un tensor de orden 3, que tiene una variable fila con I niveles (vía-1), una variable columna con Jniveles (vía-2) y una variable tubo con K niveles (vía-3), es decir: (Amari S., Cichocki A., Huy A., Zdunek R., 2009).

El contenido de los cubos en el tensor son generalmente frecuencias absolutas n_ijk o frecuencias relativas p_ijk. Las diferencias entre las proporciones observadas pueden ser modeladas utilizando como fundamento teórico el modelo de independencia entre variables fila, columna y tubo (Kroonenberg P.,2008).

II. MODELO DE INDEPENDENCIA

El modelo de independencia postula que p_ijkpuede ser expresada como el producto de las proporciones marginales:

donde

Luego, la contribución del modelo de independencia debe ser sustraído a cada proporción almacenada en los cubos del tensor, es decir: (p_ijk- p_i..p_j.p_k.), quedando definidos los cubos con la dependencia entre los niveles de las tres vías.

El análisis de la dependencia implica estandarizar los valores de la dependencia utilizando la raíz cuadrada de los valores esperados, es decir:

A los que se denominan residuales estandarizados del modelo de independencia. Luego, la suma de los residuales estandarizados al cuadrado es el coeficiente de contingencia del promedio al cuadrado de Pearson más conocida como Inercia y denotada por Φ². Además, si n es el total de observaciones entonces el estadístico X² de Pearson se define como: X² = Φ²n.

III. MEDICIÓN DE LA DEPENDENCIA

Mientras que en tablas de dos vías existe un solo tipo de dependencia, en tablas de tres vías se pueden distinguir: la dependencia total que es la desviación del modelo de independencia de tres vías, la dependencia marginal que es el resultado de la interacción de dos vías y la dependencia de las tres vías la cual es debido a la interacción de las tres vías (Kroonenberg P.,2008).

Medición de la dependencia total.

En tablas de contingencias de tres vías con dimensiones I, J y K, la dependencia total es medida por la inercia Φ², definida como:

donde Π_ijk es la medida de la dependencia total en la celda (i,j,k) en la tabla de contingencias de tres vías.

Medición de la dependencia marginal y la dependencia de tres vías.

La dependencia de la celda Π_ijk puede ser dividida en contribuciones separadas de las interacciones de dos y tres vías, (Carlier A. y Kroonenberg P., 1996). Luego, la descomposición de Π_ijk es:

Donde el término que mide el tamaño de la interacción de las tres vías para la celda (i, j,k) es: . Aplicando la definición de los totales marginales de dos vías, y la última definición para Π_ijk. , la inercia Φ² puede ser particionada como:

Laúltima relación es una medida de los ajustes para cada interacción, además proporciona las contribuciones de estas interacciones a la dependencia total.

IV. MODELACIÓN DE LA DEPENDENCIA TOTAL

En el caso de tensores de tres vías la modelación implica aplicar una Descomposición en Valores Singulares Generalizada. Al respecto, existen varios candidatos, (Kroonenberg P. M.; 2008). En particular, se elige la Descomposición en Valores Singulares de tres Modos, más conocida con el nombre de Descomposición Tucker3 y por consiguiente Modelo Tucker3.

La aplicación del modelo Tucker3 en la medida de la dependencia total, implica expresar el tensor de orden tres como:

Alternativamente, los valores Π_ijk, se denotan por:

V. DIMENSIONALIDAD DEL MODELO TUCKER3

Una característica sobresaliente en la estimación de los parámetros del modelo Tucker3 es la identificación de la dimensionalidad del arreglo central, , donde no se consideran todas las combinaciones (P, Q, R), pues no siempre son factibles. Por tal motivo surgen procedimientos algorítmicos como ser: el criterio st (Ceulemans E. y Kiers H., 2006) y el diffit (Timmerman M. y Kiers H., 2000) que permiten determinar las ternas con los mejores porcentajes de ajuste o las menores sumas de residuales al cuadrado como es el caso del scree plot multivía, (Timmerman M. y Kiers H., 2000).

VI. ANÁLISIS DE LOS RESIDUALES

El modelo tensorial tucker3 permite detectar características particulares en los datos, como ser puntos atípicos o datos inusuales en los residuales, que pueden revelar características especiales de algunos datos que no pueden ser modelados y tienen un efecto directo en la salida o estimación del modelo, (Kroonenberg P. M., 2008).

Análisis de los residuales estructurados al Cuadrado

La identificación de puntos anómalos en el ajuste, es el resultado de analizarlos residuales dentro de la suma de cuadrados para los elementos de cada modo separadamente, utilizando la suma de los residuales al cuadrado y empleando los gráficos de la suma de cuadrados de los residuales relativos-

Análisis de los residuales no estructurados al cuadrado

Los residuales multivía son mucho más complejos que los residuales de dos vías, sin embargo, un estudio no estructurado sería esencialmente el mismo, es decir que se pueden utilizar gráficos bidimensionales de los residuales y de los valores ajustados.

VII. APLICACIÓN

La Encuesta de Hogares del año 2011 cuenta con 33821 personas encuestadas en sus hogares, de donde son de interés personas mayores de edad que dieron respuesta a la pregunta en relación a su identificación con algún pueblo originario o indígena, además de su idioma materno y el departamento de procedencia; realizando las depuraciones correspondientes sólo 28644 personas cumplieron las características especificadas. Posteriormente, se construye una tabla de contingencias donde la vía-1 corresponde a la variable Identidad con cinco niveles (Quechua, Aymara, Otros Nativos, Ninguno y NS\NR), la vía-2 tiene asociada a la variable Idioma Materno con cuatro niveles (Aymara, Castellano, Otros y Quechua) y a la vía-3 le corresponde la variable Departamento con nueve niveles (Chuquisaca, La Paz, Cochabamba, Oruro, Potosí, Tarija, Santa Cruz, Beni y Pando). En general, las especificaciones dadas describen la estructura de un tensor de orden 3,

Al inspeccionar las proporciones marginales (masas de filas, columnas y tubos) de la Tabla N° 1, se advierte que el 70% de la población no se identifica como perteneciente a ningún pueblo originario o indígena, es posible que sea debido a que la lengua materna del 73% de la población es el Castellano, sin embargo, un porcentaje significativo de la población (27%) se identifica con el pueblo Quechua o Aymara.

Cálculo de la Inercia y el estadístico de Pearson

Utilizando los datos del tensor definido en el apartado anterior y aplicando las relaciones de la Inercia (1) y (3), además de la definición del estadístico X² de Pearson, los resultados de la Tabla N° 2, muestran que existe una correspondencia significativa de la identidad de la población si se toma en cuenta la región de nacimiento y el idioma materno, con un 3 8% de la inercia, a pesar de que la proporción marginal, Tabla N° 1, mostró que el 70% de la población no tiene una identificación con un pueblo originario.

Además, es bueno señalar que, la correspondencia entre la Identidad y el Idioma Materno es significativa con un 28.77% del total de la inercia. Por lo expuesto, se advierte que las correspondencias identificadas muestran que en nuestro País aún existen grupos humanos que conservan o se identifican con las raíces culturales de su región o territorio.

Identificación del Modelo

Sea el tensor , correspondiente a los datos sobre la Identidad, se construye el tensor de proporciones , luego con los valores p_ijk de es necesario estimar el tensor , cuyas celdas representan las dependencias entre los diferentes niveles de la tres vías. La identificación inicia con la determinación de la dimensión del arreglo central, de la descomposición de Tucker, , para tal efecto se utilizan los criterios de dimensionalidad.

Criterio st de Ceulemans y Kiers

La aplicación del criterio st indica que la dimensión (P, Q, R) = (3, 3, 3) es adecuada para representar el arreglo central de la Descomposición de Tucker.

Scree plot multívia

En la figura 6.14 (gráfico de la derecha), se observa que a partir del orden (3, 3, 3) el descenso de la Suma de Errores al cuadrado es prácticamente constante, luego se considera que este parámetro es un referente significativo de la dimensionalidad del arreglo central en el modelo Tucker3.

Criterio diffit

En este criterio es relevante analizar la razón del incremento del porcentaje de ajuste resultante del m-ésimo componente en relación al ajuste porcentual del m+1 ésimo componente, donde el número total de componentes es $S=P+Q+R$. La Tabla N° 3, muestra que la aplicación del criterio diffit determina que la dimensión, del arreglo central, a ser elegida es (P, Q, R) = (3, 3, 3).

Contribución de las componentes en cada vía

Los espacios originales de las vías en estudio, debido a la descomposición de Tucker3 empleada, se han reducido a un espacio tridimensional, en donde interesa conocer el porcentaje de la dependencia retenida en cada una de ellas, luego se presentan los siguientes resultados:

Donde 98.26 corresponde al porcentaje total de contribución o dependencia explicada por el modelo Tucker3, en cada una de sus vías.

Estimación de la Inercia y el estadístico de Pearson

El modelo Tucker3, relación (4), permite descomponer el tensor como sigue:

de donde se define como:

Estas estimaciones permiten aproximar los valores calculados de las inercias, expuestos en el Tabla N° 2, de acuerdo a las relaciones (1) y (3).

La Tabla N° 5 muestra en su última columna el porcentaje de ajuste de la inercia con el modelo seleccionado, donde la interacción entre el Idioma Materno y la Identidad tiene el porcentaje más significativo con 82 %. Por otro lado, llama la atención el sobre ajuste identificado para la triple interacción sin embargo no es alarmante si se comparan con las inercias y los valores del estadístico X² de los datos originales y estimados, puesto que se preserva la interpretación de la dependencia dada para cada una de las interacciones.

Representación gráfica e interpretación

La representación gráfica de la dependencia estimada consiste en expresarlas coordenadas de las componentes de una vía en un espacio determinado y proyectar sobre el las coordenadas de las componentes de las otras dos vías. Por tal motivo, las coordenadas de los niveles de la vía Departamento son transformadas a un espacio en particular, donde luego las coordenadas de los niveles combinados de las vías Identidad e Idioma materno son proyectadas en este espacio, como se muestra en la Figura N° 5.

En la Figura N° 5, se pone de manifiesto la dependencia de las tres vías, puesto que el idioma materno determina en la mayoría de los casos la identificación de la persona con el pueblo originario o indígena donde se hable ese idioma, por ejemplo si el idioma materno es el Aymara en general su identificación será con el pueblo Aymara que geográficamente e históricamente abarca los departamentos de La Paz y Oruro; un fenómeno similar sucede con las personas Potosinas, Cochabambinas y Chuquisaqueñas cuyo idioma materno es el Quechua su identificación generalmente es con el pueblo Quechua.

En Santa Cruz es donde se tiene una mayor diversidad de pueblos indígenas, luego la identificación con un pueblo indígena tiene una correspondencia directa con su lengua materna. Hay que señalar, que los departamentos de Tarija, Beni y Pando son aquellos donde el idioma materno que impera es el castellano, luego es evidente que su identificación se halla relacionada principalmente con los niveles "Ninguno" y "NS-NR".

Análisis de los Residuales Estructurados

Sea el tensor de residuales, definido por:

donde Π es el tensor con las dependencias y la estimación de las dependencias hallada a través del Modelo Tucker3 de dimensión 3x3x3. El análisis de los residuales estructurados, inicia con el cálculo y representación gráfica de las sumas de cuadrados.

Suma de Cuadrados de los residuales relativos (SCRR) de componentes por vía.

El gráfico de la Figura N° 6 presenta a las tres vías del tensor de datos: Identidad, IdiomaMat y Departamento en sus diferentes niveles con las respectivas SCRR. Las representaciones gráficas muestran que los niveles Ninguno y NS NR de Identidad; Castellano de Idioma Materno; Beni y Pando de Departamento no presentan estimaciones razonables (valores cercanos a la unidad) en relación a las restantes componentes en sus vías respectivas.

La Figura N°6 presenta de manera conjunta la SCRR en donde es evidente la pobre estimación de los niveles Ninguno, NS.NR, Castellano, Beni y Pando con el modelo Tucker3 de dimensión 3x3x3. Las causas pueden ser debido a que:

La pregunta con respecto a la Identificación con un pueblo originario o indígena, causa que la población en su gran mayoría opte por las opciones Ninguno, NS.NR; aspecto que puede asociarse al efecto de la globalización, confusión o carencia de conocimiento sobre las implicaciones del término identidad o identificación con pueblos originarios, entre otros.

La población en un número significativo asocia su identidad con el idioma materno, es decir que si su idioma materno es el Castellano no se identifica con ningún pueblo originario o indígena, sin tomar en cuenta sus raíces y las expresiones culturales de su región.

• Los departamentos de Beni y Pando son regiones afectadas por la migración, en el caso de la migración interna se observa que, si bien el idioma materno es el Castellano, la identificación con los pueblos Aymara, Quechua y otros nativos es significativa, lo que marca una diferencia sobresaliente con relación a los otros departamentos.

Suma de Cuadrados de los totales de componentes por vía (SCT)

La Figura N° 7 muestra la SCT por modo, en donde se identifican tres valores extremadamente altos correspondientes a los niveles Otrosnativos, Otros y SantaCruz de las vías Identidad, Idioma Materno y Departamento, respectivamente.

Considerando, que la SCT es calculada del tensor implica que en los componentes identificados existe una interacción significativa, en especial en la interacción de tres vías. Sin embargo, en la Tabla N° 1 se muestra claramente que las proporciones marginales de Otrosnativos en Identidad y Otros en Idioma Materno corresponden solamente al 2% y 1%, respectivamente, de la población encuestada. Por otro lado, la población encuestada en Santa Cruz es 6105 y si tomamos en cuenta a las personas con los dos niveles anteriores se tiene que es solamente el 1.04 %; luego es posible que en el departamento de Santa Cruz sea significativa esta relación de niveles, sin embargo, puede estar afectando la interacción de las vías en los otros departamentos.

Análisis de los Residuales No Estructurados

El tensor de residuales E ∈ R^5x4x⁹ cuenta con 180 residuales de las diferentes vías, en este apartado interesa solamente el conjunto de datos sin tomar en cuenta las vías y sus componentes.

En la Figura N° 8 se muestra el comportamiento de los 180 residuales, en donde claramente se observa la presencia de tres puntos atípicos que corresponden a las ternas: (NS-NR, Castellano, Beni), (Otros-Nativos, Castellano, Beni) y (Ninguno, Otros, Pando). En general, se conoce que, en Beni o Pando, no existe una identificación directa con algún pueblo originario, luego una alternativa razonable puede ser modelar los datos de la dependencia eliminando la influencia de estos departamentos.

Análisis de Correspondencias Múltiple

El análisis de tablas de contingencias de tres vías se realiza aplicando la Técnica del Análisis de Correspondencias Múltiple, que es la aplicación de un Análisis de Correspondencias Simple entablas de dos vías donde la tabla de tres vías es transformada en una tabla de dos vías, (Greenacre M., 2007).

Transformando los datos en la presente aplicación y utilizando la matriz de Burt, se obtiene los datos de la inercia total y el valor del estadístico de Pearson, 2.082948 y 59663,97, respectivamente. Note que el valor de la inercia total está por debajo de la inercia hallada con el modelo Tucker3, además que no es posible calcular las inercias de la interacción de dos y tres vías. Sin embargo, si se observa lo expuesto en la Figura N° 9, se evidencia similitud con las conclusiones emitidas en relación a la Figura N° 5.

VIII. CONCLUSIÓN

La potencialidad del Modelo Tucker3 en la identificación de la interacción o correspondencia entre vías y sus componentes en una tabla de contingencias de 3 vías, se pone de manifiesto si se comparan los resultados obtenidos con métodos convencionales como ser el Análisis de Correspondencias Múltiple. Actualmente, los modelos tensoriales se constituyen en nuevas herramientas en el campo mul ti vari ante, los cuales proponen alternativas que pueden robustecer o complementar las conclusiones emitidas con las técnicas convencionales mul ti vari antes.

BIBLIOGRAFÍA

1. Amari S., Cichocki A., Huy A. y Zdunek R. (2009). Non negative matrix and tensor factorizations: Applications to exploratory Multi-Way data Analysis and blind source separation. Editado por John Wiley & Sons Ltd, Reino Unido [ Links ]

2. Carlier A. y Kroonenberg P. (1996). Decompositions andblotsinthree-way correspondence analysis. Psychometrika, vol. 61, No 2, 355-373. [ Links ]

3. Ceulemans E. y Kiers H. (2006). Selecting among three-mode principal component models of different types and complexities: A numerical convex hull based method. British Journal of Mathematical and Statistical Psychology, No 59, 133-150 [ Links ]

4. Kroonenberg P. M. (2008). Applied Multiway Data Analysis. Wiley Series in Probability and Statistics. Estados Unidos de Norte América. [ Links ]

5. Timmerman M. y Kiers H. (2000). Three-mode principal components analysis: Choosing the numbers of components and sensitivity to local optima. British Journal of Mathematical and Statistical Psychology, 53, 1-16. [ Links ]