Pruebas t: guía para analizar los resultados de una encuesta

Aprende a identificar diferencias estadísticamente significativas en promedios de grupos, resultados de encuestas y pruebas A/B con una simple prueba t.

Una mujer analiza gráficas de prueba t

Si bien cualquier persona puede notar la diferencia entre dos números, establecer si dicha diferencia es estadísticamente significativa puede requerir más trabajo.

Supongamos que hiciste una encuesta de satisfacción de tus clientes en el trabajo. Tu jefe quiere analizar si los hombres califican a la empresa con un Net Promoter Score® (NPS) menor que las mujeres. 

En los datos, observas que la valoración promedio de los hombres encuestados fue de 9, a diferencia de la puntuación promedio de 12 de las mujeres. ¿Cómo sabes si 9 es significativamente diferente de 12? Aquí es donde intervienen las pruebas t.

En este artículo definiremos qué es una prueba t y para qué se utiliza, compartiremos ejemplos y explicaremos cómo interpretar los resultados. 

Una prueba t es un test estadístico que evalúa si la diferencia entre dos promedios es significativa utilizando la distribución t. Te ayuda a determinar si la diferencia observada entre distintos grupos es real o si es probable que se deba al azar.

Comprobar la importancia estadística es común en pruebas de conceptos y pruebas de productos. En las pruebas de conceptos, las pruebas A/B  se utilizan con frecuencia para determinar si una propuesta publicitaria funciona mejor que otra. Del mismo modo, las pruebas de productos ayudan a saber si un producto tendrá éxito una vez que se lanza al mercado. 

Las pruebas t utilizan fórmulas específicas para comparar promedios y determinar si una diferencia es estadísticamente significativa. La prueba t de dos muestras es la más común en el análisis de encuestas:

Fórmula de la prueba t

Las fórmulas de la prueba t de una muestra y la prueba t emparejada son las siguientes:

prueba t de una muestra y prueba t emparejada

En las pruebas t de una muestra y pruebas t emparejadas, el valor t calculado se compara con un valor crítico de la distribución t para evaluar la importancia estadística.

Las pruebas t se usan para saber si dos promedios son realmente diferentes en tus resultados de encuesta, no solo distintos en número. Las pruebas t te ayudan a comparar promedios de grupos, evaluar diferencias entre muestras y decidir si una diferencia es estadísticamente significativa según el valor p y el nivel de confianza.

Algunos escenarios comunes en encuestas incluyen:

  • Comparar dos grupos: Utiliza una prueba t de dos muestras (muestras independientes) para comprobar si segmentos como hombres vs. mujeres, clientes nuevos vs. recurrentes, o distintos grupos de empleados responden de manera distinta.
  • Probar un concepto o tratamiento en relación con un grupo control: En pruebas A/B o pruebas de conceptos, una prueba t te ayuda a determinar si una versión funciona mejor que otra.
  • Evaluar diferencias en puntuaciones: Compara indicadores como el Net Promoter Score (NPS), la Puntuación de satisfacción del cliente (CSAT) o el Indicador de esfuerzo del cliente (CES) para determinar si el promedio de un grupo es estadísticamente más alto o más bajo que el de otro.
  • Verificar cambios a lo largo del tiempo: Una prueba t emparejada muestra si las puntuaciones de los mismos encuestados cambiaron después de un evento, lanzamiento de una función o campaña.

Utiliza una prueba t cuando necesites evaluar una diferencia de promedios, comparar con un punto de referencia o validar una hipótesis con muestras pequeñas. Esto la convierte en una opción confiable para el análisis de encuestas, pruebas A/B y cualquier situación en la que se requiera evidencia de que la diferencia en tus datos es real.

Antes de hacer una prueba t, asegúrate de que tus datos cumplan con algunos supuestos básicos para que los resultados sean confiables.

  • Respuestas independientes: Cada respuesta debe provenir de una persona diferente y no influir en las demás. Evita respuestas duplicadas, dispositivos compartidos o agrupaciones ocultas en los datos.
  • Promedio aproximadamente normal: La prueba t funciona mejor cuando la distribución de la muestra del promedio es aproximadamente normal. Esto suele cumplirse si tienes al menos 30 casos por grupo.
  • Varianzas razonables: Si las varianzas de los dos grupos son muy diferentes o los tamaños de muestra están desbalanceados, usa la prueba t de Welch en lugar de la prueba t estándar de dos muestras.

Una comprobación rápida de estos aspectos básicos ayuda a asegurar que cualquier diferencia observada refleje una señal real y no solo ruido en los datos.

Existen tres tipos de prueba t que los investigadores usan comúnmente. Cada una cumple con propósitos distintos que explicaremos a continuación.

La prueba t de una muestra evalúa si el promedio de los datos de un grupo (por ejemplo, el CES general) es diferente de un valor especificado.

Ejemplo: El promedio actual del Indicador de esfuerzo del cliente (CES, por sus siglas en inglés) en tu empresa es de 4.2. ¿Este CES de 4.2 es significativamente más bajo que el estándar de la industria de 5.0?

Las pruebas t de dos muestras analizan si los promedios de dos grupos independientes son significativamente diferentes entre sí. Si las varianzas de los grupos parecen desiguales o los tamaños de muestra están desbalanceados, utiliza la prueba t de Welch (disponible en la mayoría de las herramientas), ya que no asume varianzas iguales.

Ejemplo: Tu hipótesis es que los hombres otorgean a tu empresa un NPS menor que las mujeres. El NPS promedio de los hombres encuestados es de 9, mientras que la valoración promedio de las mujeres es de 12. Entonces, ¿9 es significativamente diferente de 12?

Esta prueba se utiliza cuando realizas la misma encuesta dos veces en un grupo de personas. Una prueba t emparejada te permite conocer si el promedio cambió entre la primera y la segunda encuesta.

Ejemplo: Encuestaste al mismo grupo de clientes dos veces, una vez en abril y otra en mayo. La última vez, realizaron la encuesta después de ver un anuncio de tu empresa. ¿El NPS de tu empresa cambió después de que los clientes vieron el anuncio?

Mujer que mira gráficas en una computadora portátil

Para realizar una prueba t, hay que seguir cuatro pasos.

En esta sección explicaremos cada uno de ellos utilizando el ejemplo de NPS del principio: 

Tu hipótesis es que los hombres califican a tu empresa con un NPS menor que las mujeres. El NPS promedio de los hombres es de 9 y el de las mujeres es de 12. ¿Es 9 significativamente diferente de 12? Este es un ejemplo para realizar una prueba t de dos muestras.

Veamos los pasos y un ejemplo de la prueba t.

Cada tipo de prueba t tiene una fórmula diferente para calcular la estadística t. En este ejemplo, usaremos la fórmula de la prueba t de dos muestras, en la que: 

  • t es la estadística t
  • x1 es el NPS promedio de los hombres → 9
  • x2 es el NPS promedio de las mujeres → 12
  • n1 es la cantidad de hombres que respondieron la pregunta sobre el NPS → supongamos que fueron 20 hombres
  • n2 es la cantidad de mujeres → 23 mujeres respondieron
  • s1 es la desviación estándar del NPS de los hombres → supongamos que la desviación estándar calculada es 12.48
  • s2 es la desviación estándar del NPS de las mujeres → la desviación estándar calculada es 10.51
fórmula de la prueba t de dos muestras

Probablemente realizarás las pruebas t en una hoja de cálculo o en un programa estadístico (como Excel o SPSS). Sin embargo, si deseas realizar los cálculos manualmente, las fórmulas de los otros dos tipos de pruebas t se incluyen a continuación.

prueba t de una muestra y prueba t emparejada

Los grados de libertad representan la cantidad de formas en que el promedio puede variar. En este caso, los grados de libertad son la cantidad de valoraciones del NPS que puedes obtener en un determinado grupo de encuestados. De manera similar a la estadística t, la fórmula para los grados de libertad variará según el tipo de prueba t que realices. 

Para establecer los grados de libertad en las pruebas t de dos muestras debe utilizarse esta fórmula:

fórmula de los grados de libertad

El valor crítico es el umbral donde la diferencia entre dos números se considera estadísticamente significativa. 

Según esta tabla, en una prueba bilateral con un nivel alfa de 0.05 a 41 grados de libertad, el valor crítico es 2.02. Recuerda que la mayoría de los analistas utilizan una prueba bilateral en lugar de una unilateral, ya que es más moderada. 

Para obtener más información sobre las diferencias entre las pruebas unilaterales y bilaterales, mira este video de Khan Academy.

Si tu estadística t es mayor que el valor crítico, la diferencia es significativa. Si la estadística t es menor, la diferencia es estadísticamente indistinguible.

En nuestro ejemplo, el valor absoluto de la estadística t es 0.86, el cual no es mayor que el valor crítico 2.02, entonces puedes concluir que los hombres no dan un NPS significativamente menor al de las mujeres.

Interpretar los resultados de una prueba t implica revisar el valor t, el valor p y el intervalo de confianza para comprender si la diferencia entre los grupos es un efecto real o solo una variación aleatoria. En conjunto, estos indicadores muestran el tamaño de la diferencia, la solidez de la evidencia y el nivel de confianza que puedes tener en el resultado. La siguiente sección de preguntas y respuestas explica qué significa cada uno y cómo analizar los resultados de una prueba t.

El valor t indica qué tan grande es la diferencia entre los promedios de los grupos en relación con la variabilidad de tus datos. Un valor t absoluto alto significa que la señal destaca sobre el ruido; un valor más bajo sugiere que la diferencia podría deberse al azar.

El valor p indica qué tan probable es observar tus resultados por azar si la hipótesis nula (es decir, que no existe una diferencia real) fuera cierta. Muchos equipos utilizan un umbral de 0.05: un p ≤ 0.05 sugiere una diferencia estadísticamente significativa, mientras que un p > 0.05 indica que no hay una diferencia relevante en esta muestra.

Un intervalo de confianza (IC) te da un rango probable para la diferencia real entre promedios, y brinda un contexto más allá de una simple decisión de importancia estadística. Si el IC cruza el cero, el efecto no es concluyente; si se mantiene por encima o por debajo de cero, el resultado es significativo en el nivel de confianza elegido.

Una diferencia relevante es tanto estadísticamente significativa como importante en la práctica. Para entender cuán grande puede ser la brecha y si realmente importa para tu decisión, observa el tamaño del efecto estimado y el intervalo de confianza.

Las muestras grandes reducen la variabilidad, acortan los intervalos de confianza y facilitan la detección de diferencias reales. Las muestras pequeñas introducen mayor incertidumbre, lo cual puede dificultar la interpretación de efectos sutiles.

Un resumen claro de los resultados de la prueba t explica por qué realizaste la comparación, qué reveló el análisis y cuánta confianza puedes tener en la diferencia entre los grupos. Tu función consiste en traducir los resultados estadísticos a un lenguaje sencillo, relacionarlos con la pregunta original y resaltar qué implican los hallazgos para la toma de decisiones.

Al resumir los resultados de una prueba t, incluye estos elementos clave:

  1. Indica el propósito: Primero, explica por qué realizaste una prueba t y cuál era el objetivo. Por ejemplo, menciona que usaste una prueba t para demostrar si existe una diferencia estadísticamente significativa entre los promedios de dos grupos en los resultados de tu encuesta. 
  2. Presenta estadísticas descriptivas: Después, muestra el promedio y la desviación estándar de cada grupo evaluado. Esto brinda el contexto necesario para entender las diferencias observadas. También debes indicar el tamaño de la muestra de cada grupo como información adicional. 
  3. Presenta los resultados de la prueba t: A continuación, muestra el valor t, los grados de libertad (gl), el valor p y el análisis del intervalo de confianza (si lo realizaste). 
  4. Comparte tus conclusiones: Por último, comparte tus hallazgos con los colaboradores clave. Comenta brevemente si la diferencia fue o no estadísticamente significativa y qué implica esto con respecto a tu hipótesis o la pregunta de investigación.
  5. Propón los próximos pasos: Explica qué significan tus hallazgos para la empresa. Comparte las acciones a seguir y cómo tus resultados podrían influir en las decisiones de la empresa.

Evitar algunos errores simples puede ayudarte a obtener resultados de pruebas t más claros y confiables a partir de los datos de tu encuesta.

  • Buscar valores p pequeños sin revisar la diferencia real: Un resultado puede ser “estadísticamente significativo” aunque la diferencia entre grupos sea demasiado pequeña para ser relevante. Considera el tamaño de la diferencia y el intervalo de confianza para determinar si realmente es significativo.
  • Comparar muchos grupos sin ajustar tu método: Probar muchos segmentos o preguntas aumenta la probabilidad de encontrar diferencias por casualidad. Comienza con pruebas más generales, como el ANOVA, o utiliza correcciones básicas cuando realices varias pruebas t.
  • Detener pruebas A/B demasiado pronto: Revisar los resultados constantemente y finalizar la prueba en cuanto aparece algo prometedor puede llevar a conclusiones erróneas. Decide el tamaño de muestra o el período antes de empezar.
  • Usar pruebas t para el tipo de datos incorrecto: Si tu pregunta utiliza rankings o escalas muy asimétricas, una prueba t quizá no sea la opción más adecuada, ya que los promedios pueden ser engañosos. Asegúrate de que los datos se comporten lo suficientemente parecido a una escala numérica.
  • Omitir los supuestos básicos: Las pruebas t funcionan mejor cuando las respuestas son independientes y los grupos tienen una variabilidad razonablemente similar. Si la dispersión entre grupos es muy diferente, utiliza la prueba t de Welch para obtener resultados más confiables.
  • Prueba t vs. ANOVA
  • Prueba z vs. prueba t

Las pruebas t se utilizan para determinar si la diferencia entre los promedios de dos grupos de muestra es estadísticamente significativa. Puedes emplearlas en el análisis de datos de encuestas para respaldar la confiabilidad de tus resultados. 

SurveyMonkey te permite simplificar la creación y el envío de encuestas a grupos de muestra según las necesidades de investigación de tu organización. Con SurveyMonkey puedes crear encuestas de investigación de mercado y cuestionarios desde cero, o aprovechar nuestra amplia selección de más de 400 plantillas de encuestas.

Empieza hoy mismo a recopilar datos de encuestas para análisis y ayuda a tu organización a tomar mejores decisiones para crecer. Crea una cuenta gratuita ahora.

NPS, Net Promoter y Net Promoter Score son marcas comerciales registradas de Satmetrix Systems, Inc., Bain & Company y Fred Reichheld.

Woman wearing a hijab, looking at research insights on laptop

SurveyMonkey puede ayudarte a hacer mejor tu trabajo. Descubre cómo generar un mayor impacto con estrategias, experiencias, productos exitosos y mucho más.

A man and woman looking at an article on their laptop, and writing information on sticky notes

Aprende a redactar preguntas de investigación cualitativa y ve ejemplos, tipos y consejos para descubrir percepciones profundas.

Smiling man with glasses using a laptop

Hornblower usa SurveyMonkey y la IA para aprovechar al máximo los datos del NPS, obtener percepciones sobre los clientes y mejorar sus experiencias.

Woman reviewing information on her laptop

Nueva investigación sobre las tendencias laborales y cómo los empleados equilibran su tiempo personal, el trabajo remoto y en la oficina