Intraclass Correlation Coefficient: Applications to estimate the temporal stability of a measuring instrument




reliability, temporal stability, correlation, repeated measurements, ANOVA


This article presents theoretical and practical aspects about the use of the Intraclass Correlation Coefficient (ICC); it describes its advantages with respect to the Pearson’s product-moment coefficient to determine the temporal stability of the scores of a measurement instrument. This research work corresponds to a methodological article. For the application of the method, 42 university students were intentionally selected, mostly women (53.4 %), aged between 17 and 26 years. The Interpersonal Reactivity Index (IRI) was administered; after three weeks the retest was performed. The results show the versatility of the ICC to provide information regarding Pearson's r. Likewise, it was found that in all cases the Pearson r coefficient slightly overestimates the stability of the IRI scores. It is concluded that the ICC reports stable and less-biased values to determine the evidence of temporal stability of a measurement instrument.


Download data is not yet available.


Abad, F., Olea, J., Ponsoda, V. & García, C. (2011). Medición en ciencias sociales y de la salud. Editorial Sintesis.

Aiken, L. (1980). Content validity and reliability of single items or questionnaries. Educational and Psychological Measurement, 40(1), 955-959.

Aiken, L. (1985). Three coefficients for analyzing the reliability and validity or ratings. Educational and Psychological Measurement, 45(1), 131-142.

American Educational Research Association (AERA), American Psychological Association (APA) & National Council on Measurement In Education (NCME). (2018). Estandares para pruebas educativas y psicologicas. Washington: American Educational Research Association.

Bartko, J. J. (1994). Measures of agreement: A single procedure. Statistics in Medicine, 13(5-7), 737-745. doi:

Benavente, A. P. (2009). Medidas de acuerdo y desacuerdo entre jueces. Universidad de Murcia.

Byrne, B. M. (2008). Testing for multigroup equivalence of a measuring instrument: A walk through the process. Psicothema, 20(4), 872-882.

Camacho-Sandoval, J. (2008). Coeficiente de concordancia para variables continuas. Acta Médica Costarricense, 50(4), 211-212.

Cascaes da Silva, F., Gonçalves, E., Valdivia Arancibia, B. A., Graziele Bento, S., Da Silva Castro, T. L., Soleman Hernandez, S. S. & Da Silva, R. (2015). Estimadores de consistencia interna en las investigaciones en salud: el uso del coeficiente alfa. Revista Peruana de Medicina Experimental y Salud Pública, 32(1), 129. doi:

Carrasco, M., A., Delgado, B., Barbero, M., Holgado, F. & Del Barrio, M. (2011). Propiedades psicométricas del Interpersonal Reactivity Index (IRI) en población infantil y adolecente española. Psicothema, 23(4), 824-831.

Cerda, J. & Villarroel, L. (2008). Evaluación de la concordancia inter-observador en investigación pediátrica: Coeficiente de Kappa. Revista Chilena de Pediatria, 79(1), 54-58.

Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20(1), 37-46. doi:

Cohen, J. (1992). Statistical Power Analysis. Current Directions in Psychological Science, 1(3), 98-101. doi: https://10.1111/1467-8721.ep10768783

Cortés, É., Rubio, J. & Gaitán, H. (2010). Métodos estadísticos de evaluación de la concordancia y la reproducibilidad de pruebas diagnósticas. Revista Colombiana de Obstetricia y Ginecología, 61, 247-255.

Correa-Rojas, J., Grimaldo, M. & Del Rosario-Gontaruk, S. (2020). Propiedades psicometricas d de la Fear of Missing Out Scale en universitarios peruanos. Revista Aloma, 28(2), 113-120. doi:

Colegio del Psicólogo del Perú. (2017). Código de Ética y Deontología. Lima: Autor.

Davis, M. H. (1983). Measuring individual differences in empathy: Evidence for a multidimensional approach. Journal of Personality and Social Psychology, 44(1), 113-126. doi:

Davis, M. D. & Joseph, J. (2016). Determining agreement using rater characteristics. Journal of Biopharmaceutical Statistics, 26(4), 619-630. doi:

De Corte, K., Buysse, A., Verhofstadt, L. L., Roeyers, H., Ponnet, K. & Davis, M. H. (2007). Measuring Empathic Tendencies: Reliability And Validity of the Dutch Version of the Interpersonal Reactivity Index. Psychologica Belgica, 47(4), 235-260. doi:

Domínguez, S. & Merino, C. (2015). Sobre el reporte de confiabilidad del CLARP-TDAH, de Salamanca (2010). Revista Latinoamericana de Ciencias Sociales, Niñez y Juventud, 13(2).

Esquivel, C. G., Velasco, V. M., Martinez, E., Barbachano, E., González, G. & Castillo, C. E. (2006). Coeficiente de correlación intraclase vs correlación de Pearson de la glucemia capilar por reflectometría y glucemia plasmática. Medicina Interna de Mexico, 22(3), 165-171.

Esteban-Guitart, M., Rivas, M. J. & Pérez, M. (2012). Empatía y tolerancia a la diversidad en un contexto educativo intercultural. Universitas Psychologica, 11(2), 415-426.

Fernández, A. M., Dufey, M. & Kramp, U. (2011). Testing the psychometric properties of the Interpersonal Reactivity Index (IRI) in Chile: Empathy in a different cultural context. European Journal of Psychological Assessment, 27(3), 179-185. doi:

Fisher, R. A. (1954). Statistical Methods for Research Workers. Oliver and Boyd.

Guilford, J. P. (1954). Psychometric methods (2ª ed). Bombay -New Deli: Tata McGraw-Hill

Hambleton, R. K. (1984). Validating the test scores. En R. A. Berk (Ed.), A guide to critterion referenced test construction (pp. 199-230). Baltimore: Johns Hopkins University Press.

Hair, J., Anderson, R., Tatham, R. & Black, W. (2010). Analisis multivariante (2ª ed.). Madrid: Pearson Prentice Hall.

Haggard, E. A. (1958). Intraclass correlation and the analysis of variance. Holt.

Hazra, A. & Gogtay, N. (2016). Biostatistics series module 6: Correlation and linear regression. Indian Journal of Dermatology, 66(1). 593-601. doi:

Hernández-Nieto, R. (2011). Instrumentos de recolección de datos en ciencias sociales y ciencias biomédicas. Venezuela: Universidad de Los Andes.

International Test Commission. (2000). Guidelines on Test Use: Spanish Version. Recuperado de

Koo, T. K. & Li, M. Y. (2016). A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research. Journal of Chiropractic Medicine, 15(2), 155-163. doi:

Lascurain, P. C., Lavandera, M. C. & Manzanares, E. L. (2017). Propiedades psicométricas de la escala de actitudes sobre el amor (LAS) en universitarios peruanos. Acta Colombiana de Psicología, 20(2), 270-281. doi:

Lawshe, C. H. (1975). A Quantitative Approach To Content Validity. Personnel Psychology, 28(4), 563-575. doi:

Ledesma, R., Molina Ibañez, G. & Valero Mora, P. (2002). Análisis de consistencia interna mediante Alfa de Cronbach: un programa basado en gráficos dinámicos. Psico-USF, 3(7600), 143-152. doi:

Livia, J. & Ortiz, M. (2014). Construcción de pruebas. Aplicaciones en ciencias sociales y de la salud. Lima: UNFV.

Martínez, R. (2005). Psicometría: Teoria de los test psicologicos y educativos. Editorial Sintesis Psicología.

Mandeville, P. (2005). El Coeficiente de Correlación Intraclase. Ciencia UANL, 8(3), 414-416.

Manterola, C., Grande, L., Otzen, T., García, N., Salazar, P. & Quiroz, G. (2018). Confiabilidad, precisión o reproducibilidad de las mediciones. Métodos de valoración, utilidad y aplicaciones en la práctica clínica. Revista Chilena de Infectología, 35(6), 680-688. doi:

Medrano, L. & Pérez, E. (2019). Manual de psicometría y evaluación psicológica. Editorial Brujas.

Merino, C. & Livia, J. (2009). Intervalos de confianza asimétricos para el índice la validez de contenido: Un programa Visual Basic para la V de Aiken. Anales de Psicología, 25(1), 169-171. doi:

Mestre, V., Frías, M. D. & Samper, P. (2004). La medida de la empatía: análisis del Interpersonal Reactivity Index. Psicothema, 16(2), 255-260.

Muñiz, J. (2010). Teoria Clasica de los Test. Madrid: Piramide.

Muñiz, J. (2018). Introducción a la psicometria. Madrid: Piramide.

Müller, R. & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in Medicine, 13(23-24), 2465-2476. doi:

Pedrosa, I., Suárez-Álvarez, J. & García-Cueto, E. (2014). Content validity evidences: Theoretical advances and estimation methods. Acción Psicológica, 10(2), 3-18. doi:

Pérez, E. R. & Medrano, L. A. (2010). Análisis factorial exploratorio: bases conceptuales y metodológicas. Revista Argentina de Ciencias del Comportamiento (RACC), 2(1), 58-66.

Pita, S., & Pértegas, S. (2004). La fiabilidad de las mediciones clínicas: el análsiis de concordancia para variables numéricas. Atencion Primaria En La Red, (1995), 1-11.

Prieto, L., Lamarca, R. & Casado, A. (1998). El coeficiente de Correlación Intraclase. Medicina Clínica, (October), 142-145.

Raykov, T. (1997). Scale Reliability, Cronbach’s Coefficient Alpha, and Violations of Essential Tau-Equivalence with Fixed Congeneric Components. Multivariate Behavioral Research, 32(4), 329-353. doi:

Rodríguez-Miñón, P., Moreno, E. & Sanjuán, P. (2000). La matriz multimétodo-multirrasgo aplicada al estudio de la sensibilidad. Psicothema, 12(2), 492-495.

Rovinelli, R. J. & Hambleton, R. K. (1977). On the Use of Content Specialists in the Assessment of Criterion-Referenced Test Item Validity. Dutch Journal of Educational Research, 2, 49-60.

Reidl-Martínez, L. (2013). Confiabilidad en la medición. Investigación en Educación Médica, 2(6), 107-111.

Siegel, S. (1980). Estadísticas no Paramétricas Aplicadas a las Ciencias de la Conducta. México: Trillas.

Sireci, S. G. & Geisinger, K. F. (1992). Analyzing test content using cluster analysis and multidimen-siamal scaling. Applied Psychological Measurement, 16, 17-31.

Shieh, G. (2016). Choosing the best index for the average score intraclass correlation coefficient. Behavior Research Methods, 48(3), 994-1003. doi:

Shoukri, M. (2004). Measures of interobserver agreement. Estados Unidos: Chapman & Hall.

Shrout, P. E. & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 86(2), 420-428. doi:

Spence-Laschinger, H. (1992). Intraclass Correlations as Estimates of Interrater Reliability in Nursing Research. Western Journal of Nursing Research, 14(2), 246-251.

Turner, R. & Carlson, L. (2003). Indexes of Item-Objective Congruence for Multidimensional Items. International Journal of Testing, 3(2), 163-171. doi:

Vargha, P. (1997). Letter to the editor a critical discussion of intraclass correlation coefficients by R. Müller and P. Büttner. Statistics in Medicine, 16(7), 821-822. doi:<821::aid-sim558>;2-b

Ventura-León, L. (2017). El coeficiente Omega: un método alternativo para la estimación de la confiabilidad. Revista Latinoamericana En Ciencias Sociales, Niñez y Juventud, 15(1), 625-627.

Ventura-León, J. L. (2018). ¿Es el final del alfa de Cronbach? Adicciones, 31(1), 2016-2017. doi:

Viladrich, C., Angulo-Brunet, A. & Doval, E. (2017). A journey around alpha and omega to estimate internal consistency reliability. Anales de Psicologia, 33(3), 755-782. doi:

Weir, J. (2005). Quantifying test-retest reliability using the intraclass correlation coefficient and the SEM. Journal of Strength and Conditioning Research, 19(1), 231-240. doi:



How to Cite

Correa-Rojas , J. (2021). Intraclass Correlation Coefficient: Applications to estimate the temporal stability of a measuring instrument. Ciencias Psicológicas, 15(2), e-2318.




Most read articles by the same author(s)

Similar Articles

> >> 

You may also start an advanced similarity search for this article.