En los últimos años las medidas de acuerdo han cobrado popularidad en la investigación psicológica, específicamente en el campo de la psicometría; ellas se utilizan sobre todo para estimar las evidencias de validez y fiabilidad (Muñiz, 2018). Así, entre los coeficientes más utilizados, se encuentran el índice de acuerdo de Guilford (1954), el coeficiente de Kappa (Cohen, 1960), el coeficiente de Lawshe (1975), el índice de congruencia (Rovinelli & Hambleton, 1977), la prueba binomial (Siegel, 1980), el coeficiente de validez (Aiken, 1980; 1985), el índice de congruencia (Hambleton, 1984), el índice de escalamiento multidimensional (Sireci & Geisinger, 1992) y el coeficiente de validez de contenido (Hernández-Nieto, 2011).
Estos coeficientes son efectivos para analizar la concordancia entre observadores, cuando el nivel de medida es categórico, situación que es bastante usual cuando se utiliza el procedimiento de juicio de expertos (Martínez, 2005; Muñiz, 2018). Dicho de otra forma, estos coeficientes permiten cuantificar una evaluación cualitativa de n evaluadores que expresan su punto de vista acerca de la calidad de los ítems que componen una prueba, dichas valoraciones son cuantificadas en un formato de respuestas que aborda aspectos como el dominio, relevancia y representatividad de estos reactivos respecto a un constructo subyacente (American Educational Research Association (AERA), American Psychological Association (APA) & National Council on Measurement In Education (NCME), 2018).
Cabe mencionar que la razón principal por la que estos coeficientes se han popularizado radica en la sencillez de su cálculo y en la fácil interpretación de sus valores (Bartko, 1994; Benavente, 2009). No obstante, a pesar de la cantidad de coeficientes con los que se cuenta, existe cierta preferencia de parte de los investigadores por utilizar el coeficiente VAiken (Aiken, 1980; 1985; Merino & Livia, 2009; Pedrosa, Suárez-Álvarez & García-Cueto, 2014), aunque muchas veces en su uso no se recogen los aspectos de calidad mencionados y solo se recogen valoraciones superficiales como De acuerdo o En Desacuerdo.
A diferencia de estos coeficientes, existe otro conjunto de ellos que permiten el análisis de variables cuantitativas (escala de intervalo); es decir, con puntajes directos (Livia & Ortiz, 2014). Con estas puntuaciones también es posible analizar las evidencias de validez y fiabilidad por medio de distintos procedimientos. Así, por ejemplo, al reportar las evidencias de validez basada en relación con otras variables, esta se suele reportar por medio de la aplicación de diferentes coeficientes de correlación (Martínez, 2005; Muñiz, 2018), dentro de los más conocidos destaca el uso del coeficiente de correlación producto momento de Pearson y la matriz multirasgo-multimétodo (Rodríguez-Miñón, Moreno & Sanjuán, 2000).
Asimismo, para estimar las evidencias de fiabilidad de una medida se pueden emplear diferentes métodos, entre ellos la consistencia interna, formas paralelas y la estabilidad temporal, este último también se denomina test-retest, y con él se obtiene la concordancia de las puntuaciones de una medida. Para estos casos, se suele recurrir al uso del coeficiente de correlación producto momento de Pearson (Martínez, 2005), a pesar de los inconvenientes que puede traer su uso (Shrout & Fleiss, 1979).
Coeficiente de Correlación Intraclase (CCI)
En lo referente a las evidencias de fiabilidad, uno de los métodos más utilizados es la consistencia interna (Cascaes da Silva et al., 2015; Ledesma, Molina & Valero Mora, 2002). Dentro de los coeficientes con los que se trabaja en este método, se destaca el uso del coeficiente Alfa (Livia & Ortiz, 2014; Muñiz, 2010), que ha recibido críticas debido al incumplimiento de los supuestos requeridos para su aplicación (Domínguez & Merino, 2015; Ventura-León, 2018), como por ejemplo el supuesto tau-equivalencia, requerido para estimar coeficientes alfa por dimensiones (Raykov, 1997). Por ello, la literatura especializada sugiere el uso de otros coeficientes, como el Omega (Ventura-León, 2017; Viladrich, Angulo-Brunet & Doval, 2017) o el coeficiente de fiabilidad compuesta (Hair, Anderson, Tatham & Black, 2010), que arrojan estimaciones menos sesgadas.
No obstante, existen otros procedimientos para demostrar la fiabilidad de un instrumento. Por ejemplo, la estabilidad temporal, menos popular que la consistencia interna, pero no menos importante. Este método hace alusión a la concordancia de la puntuación en dos momentos diferentes en el tiempo (Muñiz, 2010; 2018). Este procedimiento también es conocido como test-retest. Las aplicaciones del procedimiento suelen recurrir al cálculo del coeficiente de correlación producto momento de Pearson (r), con el cual es posible verificar la relación entre las dos mediciones, aunque generalmente este valor sea sobreestimado (Spence-Laschinger, 1992) debido a la naturaleza lineal del coeficiente (Shrout & Fleiss, 1979).
El uso de este coeficiente implica una limitación importante, ya que si un instrumento mide sistemáticamente momentos diferentes uno del otro la correlación puede ser perfecta, a pesar de que la concordancia sea nula (Pita & Pértegas, 2004). Por este motivo, el uso del coeficiente de Pearson puede constituir una fuente de error en la medición, ya que se omite en el cálculo la variabilidad intra e inter sujeto (Shrout & Fleiss, 1979), exponiendo al investigador a errores sistemáticos en sus interpretaciones (Bartko, 1994; Ledesma et al., 2002).
Para resolver esto, desde la teoría de la generalizabilidad (TG) se ofrece un desarrollo teórico profundo acerca de la fiabilidad, definiéndola como la proporción de la varianza de un puntaje observado, que no es atribuible a errores en la medición (Spence-Laschinger, 1992), con lo cual se alienta a especificar y estimar los componentes de varianza de puntaje verdadero, varianza de puntaje de error y varianza de puntaje observado, y a calcular coeficientes basados en estas estimaciones (Mandeville, 2005; Pita & Pértegas, 2004). Desde este enfoque, se sugiere considerar el uso del C CI para determinar la concordancia entre dos mediciones realizadas en un intervalo de tiempo (Esquivel et al., 2006; Koo & Li, 2016; Mandeville, 2005; Shrout & Fleiss, 1979; Weir, 2005). A diferencia de otros coeficientes, el C CI permite detectar el sesgo sistemático de la medición (Esquivel et al., 2006), además de verificar la estabilidad temporal de las puntuaciones (Martínez, 2005; Muñiz, 2018).
En este punto se hace necesario revisar la complejidad de la definición de fiabilidad, pues ella contempla la relación de la varianza entre el puntaje verdadero respecto de la varianza de puntaje total (AERA, APA & NCME, 2018), esta definición resulta importante cuando el objetivo del estudio tiene que ver con determinar la consistencia interna (Vargha, 1997). Sin embargo, cuando se pretende medir la concordancia de las puntuaciones de un instrumento de medida en dos momentos en el tiempo sobre una muestra sin alterar, la literatura científica no sugiere un procedimiento específico (Muñiz, 2018) y la razón principal tiene que ver con la escala de medida, tratándose para la estabilidad temporal de medidas continuas (Benavente, 2009; Mandeville, 2005).
En este marco, el cálculo de la fiabilidad a través de la estabilidad temporal (test-retest) no es el procedimiento al cual se recurra comúnmente (Camacho-Sandoval, 2008; Pita & Pértegas, 2004; Prieto, Lamarca & Casado, 1998), ello no significa que su estimación sea irrelevante. Ello responde más bien a aspectos de conveniencia. Pues en el método test-retest se busca constatar que la variabilidad de las puntuaciones no difieren significativamente entre sí (Weir, 2005). Sin embargo, cuando los puntajes asignados difieren consistentemente entre cada observación es necesario recurrir a métodos de cálculo más sofisticados que permitan reducir el error de la medición. Uno de los procedimientos sugeridos es el cálculo de coeficientes de correlación producto de los residuos resultantes de un ANOVA de medidas repetidas (Cerda & Villarroel, 2008; Koo & Li, 2016; Shieh, 2016).
Originalmente el C CI fue desarrollado por Fisher (1954) como una modificación del coeficiente de correlación de Pearson. Así, el C CI actual se calcula a partir de la media de cuadrados producto de un análisis de varianza de medidas repetidas y es ampliamente utilizado en otras disciplinas (Cortés, Rubio & Gaitán, 2010; Koo & Li, 2016) para evaluar la validez y fiabilidad de los instrumentos de medición. f1
Donde:
σ XY es la covarianza de (X, Y)
σ X es la desviación estándar de la variable X
σ 𝑌 es la desviación estándar de la variable Y
Los aspectos más importantes para aconsejar el uso del CCI en la investigación psicológica son el hecho de que considera el error de medición necesario para poder controlar el sesgo (Camacho-Sandoval, 2008) y la variabilidad intra e inter sujeto (Hazra & Gogtay, 2016). Lo cual muestra sus beneficios en comparación con coeficientes como Pearson o Spearman (Esquivel et al., 2006). Al respecto, Abad, Olea, Ponsoda y García (2011) señalan que al descomponer la variabilidad de los datos en función de las fuentes de error se estiman los correspondientes componentes de la varianza, estos elementos refieren a una estimación de la variabilidad atribuida a los sujetos, ítems y la residual. Por lo tanto, el cálculo del CCI constituye una estimación más precisa y menos sesgada. Asimismo, en términos de componentes de varianza el CCI se obtiene de la siguiente manera: f2
σs2: Variabilidad intersujeto (atribuible a las diferencias entre los sujetos, s)
σj2: Variabilidad intrasujeto (se refiere a las diferencias de las mediciones de un mismo sujeto, j)
σe2: Variabilidad residual (variabilidad aleatoria asociada a los errores de medición, e)
De acuerdo con Shrout y Fleiss (1979), el CCI expresa cantidades únicas de la magnitud relativa de los dos componentes de varianza de una puntuación. A medida que disminuye la proporción de la varianza del error de la varianza total en un conjunto de puntajes, los valores posibles del CCI oscilan entre 0 y 1 (Manterola et al., 2018; Müller & Büttner, 1994). Donde una gran proporción de varianza de error en un conjunto de puntajes produce un coeficiente CCI bajo e indica poca confiabilidad (Turner & Carlson, 2003). Asimismo, señalan que el valor mínimo aceptable para el ICC es .75 (Haggard, 1958; Shrout & Fleiss, 1979). Al respecto, Prieto et al. (1998) modificaron el cálculo del CCI a partir de la variabilidad de los puntajes observados: cuanto más homogénea sea la muestra de estudio este tiende a ser más bajo.
De acuerdo con la TG una aproximación a la medida de la varianza del error se puede obtener descomponiendo la variabilidad de los datos a partir de cada fuente de variación; se estiman así los elementos de la varianza (variabilidad atribuida al sujeto, a los ítems y al error de medición). La aplicación del ANOVA permite realizar estas estimaciones. Para esto es necesario definir la cantidad de niveles de la variable intrasujeto (cantidad de medidas realizadas en un periodo de tiempo). Entre los resultados se seleccionan las sumas de cuadrados (SC), grados de libertad (gl) y medias cuadráticas (MC), con los cuales es posible realizar el cálculo del CCI .f3
Donde:
k: Numero de medidas
SC entre: Media cuadrática de los puntajes
SS total: Suma de error cuadrático medio de one-way ANOVA
Se ha expuesto acerca de la conveniencia y ventajas del CCI en relación con otros coeficientes de correlación (concordancia). A continuación, se presenta una aplicación del CCI, la misma tiene como objetivo determinar la estabilidad temporal de las puntuaciones del Índice de Reactividad Interpersonal (IRI) en una muestra de universitarios limeños, se compara el procedimiento tradicional que mide la concordancia de las medidas mediante el coeficiente de correlación de Pearson y el procedimiento sugerido a través del CCI que proviene de un ANOVA de medidas repetidas.
Método
Participantes
Para realizar una demostración acerca de la aplicabilidad del CCI se seleccionaron intencionalmente 41 estudiantes de universidades públicas (67.6 %) y privadas (32.4 %), en su mayoría mujeres (53.4 %), con edades que oscilaron entre los 17 y 26 años. El criterio de selección de los estudiantes responde a su accesibilidad, asistencia regular a clases y aprobación del consentimiento informado. Todos los estudiantes presentaron un nivel cultural y socioeconómico medio.
Instrumento
Se utilizó el Índice de Reactividad Interpersonal de Davis (1983). Este instrumento de autoaplicación, de lápiz y papel, evalúa la empatía cognitiva y afectiva (Esteban-Guitart, Rivas & Pérez, 2012), mediante un formato de respuesta tipo Likert con cinco opciones: No me describe bien (1), Me describe un poco (2), Me describe bien (3), Me describe bastante bien (4) y Me describe muy bien (5). Consta de 28 ítems que permiten medir las diferencias individuales del constructo empatía mediante las siguientes cuatro subescalas (7 ítems cada una): toma de perspectiva y fantasía (componente cognitivo) y preocupación empática y malestar personal (componente emocional). Para la presente investigación se ha empleado la adaptación española de Mestre, Frías y Samper (2004), que mantiene la estructura de los ítems en cada una de las categorías de la versión original.
Procedimiento
La administración de los instrumentos fue realizada en los meses de abril y mayo del 2020, las mediciones se llevaron de forma individual, como se trata de una medición longitudinal (dos medidas), se trató de que las mediciones se realicen en condiciones similares (día y hora) y dejando un lapso de tres semanas. Se consideraron las recomendaciones y normativas para la aplicación de pruebas propuestas por la International Test Commission (2000), con el objetivo de minimizar la varianza irrelevante al constructo proclive a ocurrir durante la administración de pruebas psicológicas. Previo a la administración de las pruebas, los participantes firmaron el consentimiento informado, en el que se dio a conocer el carácter voluntario del estudio, la liberad de su participación, la ausencia de daño físico y psicológico, el anonimato y la confidencialidad de la información recabada. De esta manera, se respetaron los lineamientos éticos según los derechos de Helsinki acoplándose además al Código de Ética del Perú (Colegio del Psicólogo del Perú, 2017).
Análisis de datos
El análisis estadístico se realizó mediante una sintaxis desarrollada para el software IBM SPSS versión 25. El análisis de datos se realizó por etapas, inicialmente se exploraron los estadísticos descriptivos y distribucionales de los ítems. Así, el supuesto de normalidad univariada se evaluó mediante los coeficientes de asimetría y curtosis, considerando como criterio los valores dentro del rango de ± 1.5 (Pérez & Medrano, 2010). Posteriormente, se aplicó el procedimiento test-retest, la concordancia de las puntuaciones se analizó por medio del coeficiente de correlación producto momento de Pearson (r), los criterios para su interpretación se basaron en las sugerencias de Cohen quien señala que este es en sí mismo un tamaño de efecto (Cohen, 1992). La segunda estimación test-retest se realizó a través de un ANOVA de medidas repetidas en donde se definieron dos niveles. Este procedimiento también permitió verificar las variaciones intra e inter sujeto, se asumieron diferencias estadísticamente significativas α ≤ .05. Los resultados hacen referencia a la variabilidad de la medición en el mismo sujeto y en el segundo caso a la variabilidad entre la respuesta de un participante en relación con las otras personas. Se ha incluido una sintaxis mediante la cual se puede reproducir, debido a que en esta oportunidad, lo que se busca es identificar el acuerdo absoluto. Las variaciones de sujeto a sujeto se evalúan mediante un estadístico F con su respectiva significancia estadística y además el tamaño de efecto (eta parcial al cuadrado (ηp2)), asumiendo los criterios de Cohen para su interpretación (Cohen, 1992). Además, se añade la variabilidad inter sujetos (las variaciones del sujeto con otro sujeto) con un estadístico F con su respectiva significancia estadística y además el tamaño de efecto (eta parcial al cuadrado (ηp2)), asumiendo los criterios de Cohen para su interpretación (Cohen, 1992).
Resultados
En la Tabla 1 se presentan las medidas descriptivas para TP, F, CE y M para dos medidas reportadas con un margen de tres semanas. Los resultados muestran que los promedios de TP evidencian poca variación (M1 = 20.710 y M2 = 20.120), las medias de F muestran un comportamiento similar (M1 = 18.900 y M2 = 17.760), en cuanto a CE las medidas resultan bastante parecidas (M1 = 25.370 y M2 = 23.220). Asimismo, los promedios M muestran el mismo estado (M1 = 15.020 y M2 =16.170). Finalmente, los coeficientes de asimetría y curtosis se encuentran por debajo de 1.5, lo que sugiere que las variables presentan normalidad univariada.
Notas: M: Media; DE: Desviación estándar; g1: Coeficiente de asimetría; g2: Coeficiente de curtosis.
Análisis de varianzas
En la Tabla 2 se muestran los resultados del ANOVA de medidas repetidas para dos factores. Los resultados de la dimensión F muestran que a nivel intrasujeto no se encontraron diferencias estatistamente significativas y el tamaño de efecto es inexistente (F = .531; p > .05; ηp2=0.013). Sin embargo, en la prueba de efecto intersujeto las variaciones son estadísticamente significativas y la magnitud de las diferencias es grande (F = 1327.275; p < .001; ηp2 = 0.971). En lo referente a la dimensión F, la prueba de efecto intrasujeto arroja que no existen diferencias estadísticamente significativas y el tamaño de efecto no resulta importante (F = 2.832; p > .05; ηp2 = 0.066). Mientras que la prueba de efecto intersujeto indica que las variaciones individuo-grupo son estadísticamente significativas y la magnitud de estas es grande (F = 928.659; p < .001; ηp2 = 0.959). Los resultados en CE indican que no existen diferencias estadísticamente significativas intrasujeto, alcanzando un tamaño de efecto muy pequeño (F = 9.156; p > .05; ηp2 = 0.186). Sin embargo, sí se encontraron diferencias estadísticamente significativas a nivel intersujeto, siendo la magnitud de estas grande (F = 1327.275; p < .001; ηp2 = 0.973). Por último, la dimensión M, los resultados a nivel intrasujeto reflejan que no existen diferencias estadísticamente significativas y el tamaño de efecto no resulta importante (F = 3.800; p > .05; ηp2 = 0.087). Mientras que la prueba de efecto intersujeto indica que las variaciones son estadísticamente significativas y la magnitud de estas es grande (F = 729.928; p < .001; ηp2 = 0.948).
Nota: MC: Media Cuadrática; F: Estadístico de Prueba ANOVA medidas repetidas; p: Significancia estadística; ηp2: Eta Parcial al Cuadrado. Prueba de Efecto Intra-Sujeto: Evalúa la variabilidad de las mismas medidas en las personas. Prueba de Efecto Inter-Sujeto: Evalúa la variabilidad entre las mismas medidas entre las personas.
Estabilidad temporal de la medida
A partir del procedimiento de ANOVA de medidas repetidas, se obtuvieron la MC: media cuadrática de los puntajes y la MSE: la suma de errores cuadráticos medio de one-way elementos necesarios para el cálculo del CCI, con sus respectivos intervalos de confianza al 95 %. Asimismo, se presentan los coeficientes de correlación producto momento de Pearson (r) con la respectiva significancia estadística (Tabla 3). Se comparan los coeficientes CCI - r, de ellos se calculó el delta entre estos coeficientes obteniéndose cambios por encima de .001.
Discusión
El CCI es un índice de concordancia para datos continuos, evalúa el tamaño de los componentes de la varianza entre los grupos y dentro de éstos (Davis & Joseph, 2016; Shoukri, 2004). Asimismo, describe la proporción de la variación total, la cual es explicada por las diferencias entre las puntuaciones e instrumentos (Mandeville, 2005). Según Hazra y Gogtay (2016), el CCI se desarrolla dentro del análisis de varianza y su cálculo se basa en la varianza verdadera (entre sujetos) y la varianza del error de medición, producida durante la medición repetida (Hazra & Gogtay, 2016; Manterola et al., 2018).
En tal sentido, la presente investigación tuvo como propósito realizar una revisión teórica acerca de la aplicabilidad del CCI para estimar la estabilidad temporal de las puntuaciones de los instrumentos de medida. Para ello, se dirigió un estudio longitudinal de dos mediciones sobre las puntuaciones del IRI, las mismas que luego fueron analizadas desde una perspectiva tradicional mediante un análisis bivariado con el coeficiente de correlación de Pearson. Mientras en el segundo enfoque el análisis comprende un análisis de varianza de medidas repetidas (ANOVA).
Cabe mencionar que la evidencia de fiabilidad por el método de estabilidad temporal (test-retest) ya ha sido utilizada en el análisis psicométrico del IRI, encontrándose en estudios en población española (Carrasco, Delgado, Barbero, Holgado & Del Barrio, 2011), belga (De Corte et al., 2007) y chilena (Fernández, Dufey & Kramp, 2011), en cuyos casos se logró constatar una correlación test-retest entre moderada y alta.
Por otro lado, los coeficientes de correlación producto momento de Pearson indican que existe relación entre estas puntuaciones. Sin embargo, ello no indica que exista concordancia entre las medidas, lo cual ya ha sido bastante discutido en la literatura (Davis & Joseph, 2016; Koo & Li, 2016; Shoukri, 2004); además, al tratarse de un procedimiento de cálculo lineal las interpretaciones son parciales y existe el riesgo de sobre estimación (Hazra & Gogtay, 2016; Manterola et al., 2018). Por su parte, el ANOVA de medidas repetidas provee los insumos para el cálculo del CCI, el cual por su naturaleza no lineal constituye una medida ajustada de la concordancia entre las mediciones. Con ello, se identificó que las cuatro dimensiones del IRI (TP, CE, F y M) no presentan mayor diferencia en las puntuaciones dentro del grupo (intrasujeto) apreciándose diferencias no significativas con magnitudes de efecto inexistentes. Sin embargo, al analizar las variaciones entre grupos se pudo apreciar que sí existían diferencias estadísticamente significativas, con tamaños de efecto grandes.
Con ello, se pudo corroborar la utilidad práctica del cálculo del CCI, pues no solo brinda información acerca de la relación entre las dos medidas, sino que también brinda información sobre el cumplimiento de los supuestos de no variaciones intra e intergrupos. Los cuales permiten la estimación del error de medición (Pita & Pértegas, 2004).
Asimismo, al comparar los coeficientes de Pearson y CCI se pudo apreciar que los primeros son ligeramente superiores; asimismo, se interpretan como correlaciones significativas y muy significativas, pero esto no implica que se han analizado las varianzas y por ende no se está evaluando la concordancia en sí. Lo que este coeficiente expresa es la relación producto momento entre dos mediciones. Desconociendo la variación a nivel inter e intra sujeto (Shoukri, 2004; Shrout & Fleiss, 1979).
Adicionalmente, para evaluar si los cambios entre los coeficientes de correlación eran significativos, se calcularon los diferenciales (Δ) y se consideró el criterio de Byrne (2008) para determinar la invarianza de la medición. Se puede apreciar que con excepción de la dimensión TP, en las restantes estas diferencias son significativas, lo cual evidencia la sobre estimación que suele ocurrir al emplear el coeficiente de correlación de Pearson como estadístico de concordancia.
En cuanto al método de estimación utilizado, es importante recalcar que el procedimiento test-retest ha sido previamente utilizado en otros estudios. Como es el caso de la investigación de Carrasco et al. (2011), en donde se analizó la estabilidad temporal del IRI en una muestra de adolescentes españoles, reportándose correlaciones producto momento de Pearson que oscilan entre .44 y .65 después del intervalo de un año. Lo mismo que lo reportado por Fernández et al. (2011), quien encontró correlaciones producto momento de Pearson superiores a .70 luego de un intervalo de 60 días, en universitarios chilenos. Estos estudios denotan que el constructo examinado no está sujeto a fluctuaciones aleatorias (Reidl-Martínez, 2013); por el contrario, parece ser bastante estable en el tiempo. Por otro lado, a pesar de que los intervalos de tiempo utilizados en estos antecedentes son distintos a los de la presente investigación, es necesario recalcar que estos se han establecido en concordancia con los criterios sugeridos por la literatura (Martínez, 2005). Lo expuesto se indica como referencia para resaltar que los hallazgos de la investigación no responden a un comportamiento anómalo del constructo, ni a algún otro aspecto resultante propio de la tarea realizada (Medrano & Pérez, 2019).
Un aspecto importante tiene que ver con la aplicabilidad del procedimiento para el cálculo del CCI, ya que este este no solo se limita a la estimación de la estabilidad temporal de las puntuaciones de un instrumento, siendo posible utilizarlo en estudios cuasiexperimentales (más de una medición). En dichos diseños se emplea comúnmente la t relacionada o la suma de rangos de wilcoxon, estimaciones que solo expresan la diferencia puntual entre antes-después y no la variación intra e inter sujeto como producto del efecto de un factor (programa de intervención) (Abad et al., 2011).
Una limitación importante tiene que ver con el tamaño de muestra y el tipo de muestreo, lo cual restringe la capacidad de generalización de los resultados. No obstante, como en este caso lo que se busca es exponer la técnica de análisis, el tamaño de muestra no afecta ello. Asimismo, es necesario demostrar la aplicabilidad del CCI en otros procedimientos como la validación por juicio de expertos, en cuyo caso se esperaría que se demuestre que arroje estimaciones más precisas que otros coeficientes como la VAiken.
Finalmente, es importante recalcar que estudios psicométricos recientes incluyen dentro de sus medidas de fiabilidad al procedimiento test-retest o la estabilidad temporal de la medida (Correa-Rojas, Grimaldo & Del Rosario-Gontaruk, 2020; Lascurain, Lavandera & Manzanares, 2017), esto como complemento a la consistencia interna; lo cual se hace necesario sobre todo si se pretende dar uso a estas medidas en estudios longitudinales (Abad et al., 2011; Muñiz, 2018) para garantizar que estas no constituyen una fuente de error sistemático.