Comparación del desempeño de ChatGPT, DeepSeek y Gemini en tareas de revisión sistemática y general a lo largo del tiempo

Métodos

Nuestro estudio experimental longitudinal de medidas repetidas evaluó el desempeño de 3 LLM (ChatGPT-4o, DeepSeek-V3 y Gemini 1.5 Pro) en 3 tareas clave: selección de texto completo, extracción de datos para una tabla de evidencia y riesgo de sesgo. Estas tareas se evaluaron durante 3 semanas consecutivas y se compararon entre revisiones sistemáticas y generales, ambas investigando implantes dentales.
Para eliminar el posible sesgo resultante de la exposición previa de los LLM a los datos del estudio, 2 revisiones no publicadas25, 26 en el momento en que

Resultados

Los resultados de Kendall W. El coeficiente para evaluar la coherencia entre diferentes relatos en cada etapa para las 3 tareas en las revisiones sistemática y general se presenta en la Tabla 1. A excepción de 2 elementos relacionados con Géminis, todas las demás medidas mostraron una coherencia significativa (PAG < .05). En el 72% de los casos, los LLM tuvieron la mayor consistencia al realizar la extracción de datos en comparación con la selección de texto completo y la evaluación del riesgo de sesgo.
Los resultados de las pruebas GEE, que analizaron los efectos del tipo LLM.

Discusión

Se rechazaron las hipótesis nulas, que afirmaban que no habría diferencias en el rendimiento entre los LLM de ChatGPT, DeepSeek y Gemini durante 3 semanas consecutivas en las tareas de selección de texto completo, extracción de datos y evaluación del riesgo de sesgo para revisiones sistemáticas y generales. DeepSeek tuvo el mejor desempeño en extracción de datos, mientras que Gemini exhibió el desempeño más débil. Sin embargo, Gemini tuvo una mejora potencial a través de la interacción durante las tareas de extracción de datos. ChatGPT se mostró mejor

Conclusiones

Los LLM de IA, especialmente DeepSeek, mostraron potencial en la extracción de datos. Sin embargo, su desempeño en las tareas de selección de texto completo y evaluación del riesgo de sesgo fue inadecuado. A pesar de las posibles mejoras de Gemini en la extracción de datos a través de la interacción, su baja consistencia disminuye la confiabilidad. Además, ChatGPT mostró un mejor desempeño en revisiones sistemáticas que en revisiones generales. Por lo tanto, los LLM deben utilizarse principalmente como herramientas de apoyo y no como soluciones independientes en procesos sistemáticos y

Divulgación

Dres. Emami y Shirani no informaron ninguna revelación.
El Dr. Emami es instructor en la Facultad de Odontología de la Universidad de Saskatchewan, Saskatoon, Saskatchewan, Canadá.
Traducido automáticamenteTruncado a 10000 caracteres
Publicación Original