Víctor M. Guerrero Departamento de Estadística – ITAM y Eliud Silva UNAM y U. Anáhuac

Graduación no-paramétrica, con suavidad y estructura impuestas por el analista: aplicaciones demográficas para México Víctor M. Guerrero Departamento de Estadística – ITAM y Eliud Silva UNAM y U. Anáhuac Trabajo ganador del 3er lugar del Premio Gustavo Cabrera 2010, en la categoría de Mejor Investigación en Demografía.

Introducción • Las técnicas estadísticas pueden aplicarse para la comprensión y • solución de problemas en diversas áreas. • En particular, en el análisis demográfico se tiene una veta de • oportunidad para su aplicación. • Desde la década de los 80´s se ha usado la óptica del análisis de series • de tiempo para abordar problemas de fecundidad, mortalidad y • migración. • El denominador común ha sido el análisis y pronóstico estadístico. • Entre muchos otros, existen los siguientes trabajos de pronóstico de • población: Lee y Carter (1992), Lee y Tuljapurkar (1994), Keilmanet al. • (2002), Girosi y King (2004), Tuljapurkaret al. (2004), Hyndman y Booth • (2008), Alonso et al. (2009) y Okitaet al. (2009).

Introducción • Land y Cantor (1983) usaron modelos ARIMA para las variaciones • estacionales de nacimiento y muerte en Estados Unidos; Carter y Lee • (1986) realizaron pronósticos conjuntos para fecundidad, nupcialidad y • matrimonios; Thompson et al. (1989) proyectaron la fecundidad en • forma multivariadas; McNown y Rogers (1992) también pronosticaron • mortalidad. • McNown y Rajbhandary (2003) analizaron el comportamiento del • mercado laboral femenino y la fecundidad; Laporte y Ferguson (2003) • estudiaron la desigualdad del ingreso y la mortalidad en Canadá; • Brückeret al. (2003) discutieron la migración internacional en Alemania; • Jeony Shields (2008) analizaron el impacto del tamaño de las cohortes • en Estados Unidos; Goldstein (2009) reconstruyó la incidencia de • Influenza usando series de mortalidad. • Y en México, González y Guerrero (2007) ganaron el Premio de • Pensiones de ese año al pronosticar mortalidad y analizar su impacto • sobre las pensiones para el año 2050.

Graduación no-paramétrica y estructurada de tasas de mortalidad • Los censos de población, encuestas y estadísticas vitales pueden tener • anomalías o defectos en su registro. • Su origen puede ser atribuido a la presencia de eventos extraordinarios • (sismos, inundaciones, etc.) o a errores humanos de diversos tipos. • El registro erróneo de las muertes puede conducir a un aumento (o • disminución) de la intensidad en una cierta edad, en detrimento de otra, • lo que afecta la toma de decisiones. • La graduación (suavizado) de datos surge como una alternativa para • resolver este problema. • La graduación es el conjunto de principios y métodos a través de los • cuales se ajustan los datos observados para obtener una base • suavizada, que permite hacer mejores inferencias y, en particular, • realizar cálculos actuariales (Haberman y Renshaw, 1996).

Graduación no-paramétrica y estructurada de tasas de mortalidad • La graduación de datos de mortalidad puede realizarse mediante el uso • de métodos paramétricos o no-paramétricos. • En el primer grupo, se busca ajustar una función paramétrica a las • probabilidades que surgen directamente de los datos. En el segundo • grupo, se suavizan los datos observados, que corresponden a • probabilidades de muerte, mediante técnicas de suavizamiento. • Aquí se utiliza un método para estimar tendencias en tasas de • mortalidad, que conjuga la bondad del ajuste y la suavidad del enfoque • no-paramétrico, con la información proveniente de una estructura de • mortalidad dada, según se propuso en Guerrero y Silva (2010). • El usuario es capaz de controlar, tanto un porcentaje suavidad, como • otro de estructura, lo que propicia la comparabilidad entre tendencias • estimadas.

Modelos no-paramétricos • Se busca disminuir la variabilidad y facilitar el análisis de los datos observados. Estos se modifican y se convierten en estimados, una vez que se les excluyen las fluctuaciones indeseadas. • Una técnica muy empleada para ello es el método de Whittaker y Henderson, que resulta de resolver el problema de minimizar donde es el vector de valores observados y es el vector de valores graduados. es una matriz de ponderaciones y es una matriz de diferencias de tamaño cuyo ij-ésimo elemento está dado por para i=1,…,n-d y j =1,…,n, con para j < i o j > d + i.

Modelos no-paramétricos • En el contexto de tasas de mortalidad, el mejor estimador lineal e • insesgado de las tasas suavizadas, tiene la forma de la solución de • Whittaker y Henderson al problema de graduación (Guerrero, Juárez • y Poncela, 2001). • En el ámbito económico, al método de Whittaker y Henderson con • d= 2, se le llama filtro de Hodrick y Prescott (HP) (Hodricky • Prescott, 1997). • Sirve para estimar tendencias y realizar análisis de ciclos • económicos.

Modelos no-paramétricos • El filtro de HP proporciona una estimación de la variable no observable a través de la solución del problema de minimización donde es la variable observada, es el valor de la tendencia (no observable) por estimar, es la varianza del componente cíclico, que se define como y es la varianza de la tasa de crecimiento de la tendencia. • El parámetro permite establecer un equilibrio entre la suavidad de la tendencia y la magnitud de las fluctuaciones cíclicas.

Modelos no-paramétricos • Laxton y Tetlow (1992) propusieron el filtro de Hodrick y Prescott multivariado (HPMV) para estimar variables no observables. Con este filtro se agrega información económica relevante al modelo, que incluye la suavidad. • El filtro de HPMV permite estimar la variable no observable como solución del problema • con respecto a para y dados. • Esta expresión es semejante a la del filtro HP, pero está aumentada con los errores que provienen de la estimación de alguna relación económica (Boone, 2000).

Técnicas demográficas para proyectar mortalidad • Método de componentes con el que se estudia, por separado, el • comportamiento futuro de los componentes demográficos: fecundidad, • mortalidad y migración (George et al., 2004). • Para la mortalidad, se cuenta con: • (a) Técnicas de extrapolación. • (b) Técnicas que suponen alguna estructura de mortalidad en otras. • (c) Modelos estructurales que consideran cambios en las tasas de • mortalidad, a partir de cambios en variables socioeconómicas. • Para (a) y (b) se tienen también: método de Lee y Carter (1992); leyes • de Makeham, Gompertz, Helligman y Pollard; tablas de mortalidad • límite, etcétera.

Metodología propuesta • Se sugiere usar el filtro HPMV para estimar tendencias de mortalidad mediante la incorporación de suavidad de los datos. Para ello se usa donde denota la mortalidad observada, representa la tendencia de mortalidad suavizada y es el ruido. • Cuando se penaliza por falta de suavidad y se minimiza con respecto a , surge el problema con el error aleatorio de un modelo demográfico estructural. • Se tiene un problema como el de Boone (2000), para estimar la • tendencia de mortalidad no-observada, .

Metodología propuesta • Se considera el modelo . ~ ~ ~ • La ecuación (1) expresa el vector de mortalidad como una tendencia más un error aleatorio. • En (2) se induce suavidad en al suponer el polinomio de grado uno, para t = 3, ..., n, con un error aleatorio. • En (3) se usa una experiencia de mortalidad (estructura límite), i. e. otra fuente de información, para combinar con los datos observados.

Metodología propuesta • Se usa Mínimos Cuadrados Generalizados para estimar , así que donde y , cuya matriz de varianza-covarianza está dada por • Otra forma de expresar es como • así que puede interpretarse como la combinación de dos fuentes de información, cuyas credibilidades pueden ser decididas por el analista al elegir el valor de .

Metodología propuesta • Desde el punto de vista de cálculo numérico, el vector se • obtiene por medio del Filtro de Kalman con suavidad. • Se propone el índice de suavidad donde tr(.) denota la traza de una matriz y las matrices son positivas definidas de tamaño . • Esta medida satisface: (i) es aditiva a la unidad; (ii) toma valores en • (0,1); (iii) es invariante bajo transformaciones lineales no singulares; • y (iv) se comporta en forma lineal.

Índice de suavidad y su uso para elegir los parámetros de suavizamiento • El índice de suavidades con . • Para suavizar los datos observados con el filtro HPMV, • usando una estructura conocida de datos , se sugiere • usar el siguiente procedimiento:

Índice de suavidad y su uso para elegir los parámetros de suavizamiento • 1. Suavizar los datos sin considerar la existencia de . Fijar un porcentaje deseado de suavidad y aplicar el procedimiento de Guerrero (2008). Deducir el valor de y obtener la correspondiente curva suavizada con 100S( ; n)% de suavidad (por ejemplo 80%). • 2. Decidir el grado de suavidad a intercambiar por estructura, de manera que el porcentaje de suavidad se reduzca (digamos de 80% a 75%). Fijar el valor de 100S( )% y deducir o bien, elegir este valor a priori. • 3. Ejecutar el proceso de suavizamiento con estructura, aplicando el filtro de Kalman a los datos , con lo que se obtiene 100S( )% de suavidad y 100[S( ) – S( )]% de estructura (es decir, proximidad a ).

Figura 1. Mortalidad en la Ciudad de México en el siglo XVIII con CMT76 y CMT82 Ejemplo 1 Figura 1. Mortalidad en la Ciudad de México del siglo XVIII, con base en restos óseos encontrados en la Catedral Metropolitana en 1976 y 1982. Fuente: Logaritmos de tasas de mortalidad de Hernández, P. (1999) Los estudios paleodemográficos en México. Revista Argentina de Antropología Biológica, 2: 335-355.

Ejemplo 1 Figura 2. Tendencia estimada con ambas fuentes de información: 1976 y 1982 Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.

Ejemplo 1 Figura 3. Tendencia estimada con mayor credibilidad en los datos de 1976 Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.

Ejemplo 1 Figura 4. Tendencia estimada con mayor credibilidad en los datos de 1982 Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.

Ejemplo 2 Figura 5. Tasas específicas de fecundidad Fuente: Tasas específicas de fecundidad de Suecia de 2006 disponible en http://www.humanfertility.org/ y CONAPO (2006) Indicadores demográficos básicos, Consejo Nacional de Población, disponible en http://www.conapo.gob.mx/ (11/marzo/2006).

Ejemplo 2 Figura 6. Tendencia inicial con datos de México 2006 Fuente: Cálculos propios e Ibid.

Ejemplo 2 Figura 7. Tendencia estimada con estructuras de fecundidad de México y Suecia Fuente: Cálculos propios e Ibid.

Ejemplo 3 Figura 8. Tasas de mortalidad infantil en México con tres fuentes distintas Fuente: Aguirre, A. (2009) La mortalidad infantil y la mortalidad materna en el siglo XXI. Papeles de población, 15: 75-99; CONAPO (2010) Indicadores demográficos básicos, Consejo Nacional de Población disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010) y datos de la Secretaría de Salud de 2000-2008, disponible en http://www.sinais.salud.gob.mx/mortalidad/ (11 de agosto de 2010)

Ejemplo 3 Figura 9. Tendencia inicial con datos de Aguirre Fuente: Cálculos propios e Ibid.

Ejemplo 3 Figura 10. Tendencia estimada con información de Aguirre y CONAPO Fuente: Cálculos propios e Ibid.

Ejemplo 4 Figura 11. Tasas específicas de mortalidad masculina. México2010, Japón2008 Fuente: CONAPO (2010) Indicadores demográficos básicos, http://www.conapo.gob.mx/ (11/agosto/2010) y para Japón disponible en http://www.mortality.org (11/ agosto/2010).

Ejemplo 4 Figura 12. Tendencia inicial para las tasas específicas de mortalidad en México Fuente: Cálculos propios e Ibid.

Ejemplo 4 Figura 13. Tendencia estimada con ambas fuentes de información: mexicana y japonesa Fuente: Cálculos propios e Ibid.

Referencias Alonso, A. M., Peña, D. y Rodríguez, J. (2009) A MethodologyforPopulationProjections: AnApplicationtoSpain, Preprintsubmittedto CSDA. Boone, L. (2000) Comparingsemi-structuralmethodstoestimateunobserved variables: the HPMV and KalmanFiltersapproaches, EconomicsDepartmentWorkingPapers, No. 240, OCDE. Brücker, H., Siliverstovs, B. y Trübswetter, P. (2003) International MigrationtoGermany: Estimation of a Time-Series Model and Inference in Panel Cointegration, DiscussionPapers of DIW Berlin 391, DIW Berlin, GermanInstituteforEconomicResearch. Carter, L. y Lee. R. (1986) Jointforecasts of US marital fertility, nuptiality, births and marriagesusing time series models, Journal of the American StatisticalAssociation. CONAPO (2006, 2010) Indicadores demográficos básicos, Consejo Nacional de Población disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010). George, V., Smith, S., Swason, D. y Tayman, J.(2004) “TheMethods and Materials of Demography” in chapter 21, PopulationProjections, editedby J. Siegel and Swanson, D., ElsevierAcademicPress. Girosi, F. y King, G. (2004) Demographicforecasting, unpublishedbook. Manuscriptdownloadable at http://gking. harvard. edu/files/smooth. pdf. Goldsteina, E., Dushoffb, J., Mad, J., Plotkine, J., Earnc, D. y Lipsitcha, M. (2009) Reconstructing influenza incidencebydeconvolution of dailymortality time series, Editedby Burton H. Singer, Princeton University, Princeton, NJ.

Referencias González, C. Y. y Guerrero, V. M. (2007) Pronósticos estadísticos de mortalidad y su impacto sobre el Sistema de Pensiones en México. Trabajo ganador del 1er. Lugar en el Premio de Pensiones 2007. http://www.consar.gob.mx/premio_pensiones/pdf2007/ Guerrero, V. M. (2008) EstimatingTrendswithPercentage of SmoothnessChosenbytheUser. International StatisticalReview, 76, 187–202. Guerrero, V. M. y Silva, E. (2010) Non-parametric and StructuredGraduation of MortalityRates. PopulationReviewVolume 49, Number 2, 13-26. Guerrero, V. M., Juárez, R. y Poncela, P. (2001) Data graduationbasedonstatistical time series methods, Statistics and ProbabilityLetters, 52, 169-175. Haberman, S. y Renshaw, A. (1996) Generalized linear models and actuarial science, TheStatistician, 45, 407-436. Hodrick, R. y Prescott, E. (1997) Post-war U.S. businesscycles: anempiricalinvestigation, Journal of Money, Credit and Banking, 29, 1-16. Hyndman, R. J. y H. Booth (2008) StochasticPopulationForecastsUsingFunction Data ModelsforMortality, Fertility, and Migration, International Journal of Forecasting, 24, 323-342. Jeon, Y. y Shields, M. (2008) TheImpact of RelativeCohortSizeon U.S. Fertility, 1913- 2001,IZA DiscussionPapers 3587, InstitutefortheStudy of Labor (IZA). Keilman, N., Pham, D. y A. Hetland (2002) WhyPopulationForecastsShouldbeProbabilistic – Illustratedbythe Case of Norway, DemographicResearch, 6, 409-454. Land, K. y Cantor, D. (1983) ARIMA Models of SeasonalVariation in U.S. Birth and DeathRates, Demography, 20, 541-568.

Referencias Laporte, A. y Ferguson, B. (2003) Incomeinequality and mortality: time series evidencefromCanada, Journal of Infection and PublicHealth, 66, 107-117. Laxton, D. y Tetlow, R. (1992) A simple multivariatefilterforthemeasurement of potential output, Bank of CanadaTechnicalReport 59, Bank of Canada. Lee, R. y Carter, L. (1992) Modeling and Forecasting U.S. Mortality, Journal of the American StatisticalAssociation, 87, 659-675. Lee, R. y Tuljapurkar, S. (1994) StochasticpopulationprojectionsfortheUnitedStates: Beyondhigh, medium and low, Journal of the American StatisticalAssociation, 89, 1175–1189. McNown, R. y Rajbhandary, S. (2003) Time series analysis of fertility and female labor marketbehavior, Journal of PopulationEconomics, Springer, 16, 501- 523. McNown, R. y Rogers, A. (1992) Forecasting Cause-SpecificMortalityUsing Time Series Methods. International Journal of Forecasting, 8, 413-432. Okita, Y., Pfau, W. y Thanh, G (2009) A StochasticForecastModelForJapan’sPopulation, Discussion Paper:09-06. Thompson, P., Bell, W., Long, J. y Miller R. (1989) Multivariate time series projections of parametrizedage-specificfertilityrates, Journal of the American StatisticalAssociation, 84, 689-699. Tuljapurkar, Shripad, Ronald Lee, y Qi Li. (2004) Randomscenarioforecasts versus stochasticforecasts, International StatisticalReview, 72, 185–199.

Víctor M. Guerrero Departamento de Estadística – ITAM y Eliud Silva UNAM y U. Anáhuac