Aprende a identificar diferencias estadísticamente significativas en promedios de grupos, resultados de encuestas y pruebas A/B con una simple prueba t.
Si bien cualquier persona puede notar la diferencia entre dos números, establecer si dicha diferencia es estadísticamente significativa puede requerir más trabajo.
Supongamos que hiciste una encuesta de satisfacción de tus clientes en el trabajo. Tu jefe quiere analizar si los hombres califican a la empresa con un Net Promoter Score® (NPS) menor que las mujeres.
En los datos, observas que la valoración promedio de los hombres encuestados fue de 9, a diferencia de la puntuación promedio de 12 de las mujeres. ¿Cómo sabes si 9 es significativamente diferente de 12? Aquí es donde intervienen las pruebas t.
En este artículo definiremos qué es una prueba t y para qué se utiliza, compartiremos ejemplos y explicaremos cómo interpretar los resultados.
Una prueba t es un test estadístico que evalúa si la diferencia entre dos promedios es significativa utilizando la distribución t. Te ayuda a determinar si la diferencia observada entre distintos grupos es real o si es probable que se deba al azar.
Comprobar la importancia estadística es común en pruebas de conceptos y pruebas de productos. En las pruebas de conceptos, las pruebas A/B se utilizan con frecuencia para determinar si una propuesta publicitaria funciona mejor que otra. Del mismo modo, las pruebas de productos ayudan a saber si un producto tendrá éxito una vez que se lanza al mercado.
Las pruebas t utilizan fórmulas específicas para comparar promedios y determinar si una diferencia es estadísticamente significativa. La prueba t de dos muestras es la más común en el análisis de encuestas:
Las fórmulas de la prueba t de una muestra y la prueba t emparejada son las siguientes:
En las pruebas t de una muestra y pruebas t emparejadas, el valor t calculado se compara con un valor crítico de la distribución t para evaluar la importancia estadística.
Las pruebas t se usan para saber si dos promedios son realmente diferentes en tus resultados de encuesta, no solo distintos en número. Las pruebas t te ayudan a comparar promedios de grupos, evaluar diferencias entre muestras y decidir si una diferencia es estadísticamente significativa según el valor p y el nivel de confianza.
Algunos escenarios comunes en encuestas incluyen:
Utiliza una prueba t cuando necesites evaluar una diferencia de promedios, comparar con un punto de referencia o validar una hipótesis con muestras pequeñas. Esto la convierte en una opción confiable para el análisis de encuestas, pruebas A/B y cualquier situación en la que se requiera evidencia de que la diferencia en tus datos es real.
Antes de hacer una prueba t, asegúrate de que tus datos cumplan con algunos supuestos básicos para que los resultados sean confiables.
Una comprobación rápida de estos aspectos básicos ayuda a asegurar que cualquier diferencia observada refleje una señal real y no solo ruido en los datos.
Existen tres tipos de prueba t que los investigadores usan comúnmente. Cada una cumple con propósitos distintos que explicaremos a continuación.
La prueba t de una muestra evalúa si el promedio de los datos de un grupo (por ejemplo, el CES general) es diferente de un valor especificado.
Ejemplo: El promedio actual del Indicador de esfuerzo del cliente (CES, por sus siglas en inglés) en tu empresa es de 4.2. ¿Este CES de 4.2 es significativamente más bajo que el estándar de la industria de 5.0?
Las pruebas t de dos muestras analizan si los promedios de dos grupos independientes son significativamente diferentes entre sí. Si las varianzas de los grupos parecen desiguales o los tamaños de muestra están desbalanceados, utiliza la prueba t de Welch (disponible en la mayoría de las herramientas), ya que no asume varianzas iguales.
Ejemplo: Tu hipótesis es que los hombres otorgean a tu empresa un NPS menor que las mujeres. El NPS promedio de los hombres encuestados es de 9, mientras que la valoración promedio de las mujeres es de 12. Entonces, ¿9 es significativamente diferente de 12?
Esta prueba se utiliza cuando realizas la misma encuesta dos veces en un grupo de personas. Una prueba t emparejada te permite conocer si el promedio cambió entre la primera y la segunda encuesta.
Ejemplo: Encuestaste al mismo grupo de clientes dos veces, una vez en abril y otra en mayo. La última vez, realizaron la encuesta después de ver un anuncio de tu empresa. ¿El NPS de tu empresa cambió después de que los clientes vieron el anuncio?
Para realizar una prueba t, hay que seguir cuatro pasos.
En esta sección explicaremos cada uno de ellos utilizando el ejemplo de NPS del principio:
Tu hipótesis es que los hombres califican a tu empresa con un NPS menor que las mujeres. El NPS promedio de los hombres es de 9 y el de las mujeres es de 12. ¿Es 9 significativamente diferente de 12? Este es un ejemplo para realizar una prueba t de dos muestras.
Veamos los pasos y un ejemplo de la prueba t.
Cada tipo de prueba t tiene una fórmula diferente para calcular la estadística t. En este ejemplo, usaremos la fórmula de la prueba t de dos muestras, en la que:
Probablemente realizarás las pruebas t en una hoja de cálculo o en un programa estadístico (como Excel o SPSS). Sin embargo, si deseas realizar los cálculos manualmente, las fórmulas de los otros dos tipos de pruebas t se incluyen a continuación.
Los grados de libertad representan la cantidad de formas en que el promedio puede variar. En este caso, los grados de libertad son la cantidad de valoraciones del NPS que puedes obtener en un determinado grupo de encuestados. De manera similar a la estadística t, la fórmula para los grados de libertad variará según el tipo de prueba t que realices.
Para establecer los grados de libertad en las pruebas t de dos muestras debe utilizarse esta fórmula:
El valor crítico es el umbral donde la diferencia entre dos números se considera estadísticamente significativa.
Según esta tabla, en una prueba bilateral con un nivel alfa de 0.05 a 41 grados de libertad, el valor crítico es 2.02. Recuerda que la mayoría de los analistas utilizan una prueba bilateral en lugar de una unilateral, ya que es más moderada.
Para obtener más información sobre las diferencias entre las pruebas unilaterales y bilaterales, mira este video de Khan Academy.
Si tu estadística t es mayor que el valor crítico, la diferencia es significativa. Si la estadística t es menor, la diferencia es estadísticamente indistinguible.
En nuestro ejemplo, el valor absoluto de la estadística t es 0.86, el cual no es mayor que el valor crítico 2.02, entonces puedes concluir que los hombres no dan un NPS significativamente menor al de las mujeres.
Interpretar los resultados de una prueba t implica revisar el valor t, el valor p y el intervalo de confianza para comprender si la diferencia entre los grupos es un efecto real o solo una variación aleatoria. En conjunto, estos indicadores muestran el tamaño de la diferencia, la solidez de la evidencia y el nivel de confianza que puedes tener en el resultado. La siguiente sección de preguntas y respuestas explica qué significa cada uno y cómo analizar los resultados de una prueba t.
El valor t indica qué tan grande es la diferencia entre los promedios de los grupos en relación con la variabilidad de tus datos. Un valor t absoluto alto significa que la señal destaca sobre el ruido; un valor más bajo sugiere que la diferencia podría deberse al azar.
El valor p indica qué tan probable es observar tus resultados por azar si la hipótesis nula (es decir, que no existe una diferencia real) fuera cierta. Muchos equipos utilizan un umbral de 0.05: un p ≤ 0.05 sugiere una diferencia estadísticamente significativa, mientras que un p > 0.05 indica que no hay una diferencia relevante en esta muestra.
Un intervalo de confianza (IC) te da un rango probable para la diferencia real entre promedios, y brinda un contexto más allá de una simple decisión de importancia estadística. Si el IC cruza el cero, el efecto no es concluyente; si se mantiene por encima o por debajo de cero, el resultado es significativo en el nivel de confianza elegido.
Una diferencia relevante es tanto estadísticamente significativa como importante en la práctica. Para entender cuán grande puede ser la brecha y si realmente importa para tu decisión, observa el tamaño del efecto estimado y el intervalo de confianza.
Las muestras grandes reducen la variabilidad, acortan los intervalos de confianza y facilitan la detección de diferencias reales. Las muestras pequeñas introducen mayor incertidumbre, lo cual puede dificultar la interpretación de efectos sutiles.
Un resumen claro de los resultados de la prueba t explica por qué realizaste la comparación, qué reveló el análisis y cuánta confianza puedes tener en la diferencia entre los grupos. Tu función consiste en traducir los resultados estadísticos a un lenguaje sencillo, relacionarlos con la pregunta original y resaltar qué implican los hallazgos para la toma de decisiones.
Al resumir los resultados de una prueba t, incluye estos elementos clave:
Evitar algunos errores simples puede ayudarte a obtener resultados de pruebas t más claros y confiables a partir de los datos de tu encuesta.
Las pruebas t se utilizan para determinar si la diferencia entre los promedios de dos grupos de muestra es estadísticamente significativa. Puedes emplearlas en el análisis de datos de encuestas para respaldar la confiabilidad de tus resultados.
SurveyMonkey te permite simplificar la creación y el envío de encuestas a grupos de muestra según las necesidades de investigación de tu organización. Con SurveyMonkey puedes crear encuestas de investigación de mercado y cuestionarios desde cero, o aprovechar nuestra amplia selección de más de 400 plantillas de encuestas.
Empieza hoy mismo a recopilar datos de encuestas para análisis y ayuda a tu organización a tomar mejores decisiones para crecer. Crea una cuenta gratuita ahora.
NPS, Net Promoter y Net Promoter Score son marcas comerciales registradas de Satmetrix Systems, Inc., Bain & Company y Fred Reichheld.

SurveyMonkey puede ayudarte a hacer mejor tu trabajo. Descubre cómo generar un mayor impacto con estrategias, experiencias, productos exitosos y mucho más.

Aprende a redactar preguntas de investigación cualitativa y ve ejemplos, tipos y consejos para descubrir percepciones profundas.

Hornblower usa SurveyMonkey y la IA para aprovechar al máximo los datos del NPS, obtener percepciones sobre los clientes y mejorar sus experiencias.

Nueva investigación sobre las tendencias laborales y cómo los empleados equilibran su tiempo personal, el trabajo remoto y en la oficina





