Un método de anotación eficiente para el reconocimiento de imágenes de instrumentos dentales
En este estudio, para aclarar la diferencia en la precisión de detección (DA) de los instrumentos debido a los diferentes métodos de anotación, anotamos imágenes tomadas en un laboratorio y una clínica a través de dos enfoques diferentes para crear dos conjuntos de datos de entrenamiento para el reconocimiento de imágenes. Los dos conjuntos de datos se crearon anotando solo partes que caracterizan los instrumentos de destino y anotando todos los instrumentos de destino, respectivamente. El sistema de reconocimiento de imágenes se entrenó con cada conjunto de datos, los pesos obtenidos se usaron para detectar instrumentos en una clínica y los resultados se compararon y evaluaron. El software de detección de objetos basado en DL YOLOv46 y YOLOv77 se utilizaron como método de detección de objetos.
Dos tipos de métodos de anotación para crear conjuntos de datos para entrenamiento y evaluación
En la detección de objetos basada en DL, las etiquetas y las coordenadas de los cuadros delimitadores (BB) de un objeto de destino en una imagen se estiman y utilizan para entrenar al detector. Por lo tanto, para obtener imágenes utilizadas para entrenar y estimar el detector, se desarrolló un dispositivo para capturar imágenes de una bandeja de papel (tamaño: 16 cm × 25 cm) en la que se colocan los instrumentos durante un procedimiento dental real.
El dispositivo estaba equipado con una Raspberry Pi 3 Model B (Raspberry Pi Foundation, Cambridge, EE. UU.) y una Raspberry Pi 3 Model B (Raspberry Pi Foundation, Cambridge, EE. UU.) para capturar imágenes de la bandeja y su entorno en formato H.264 , 1920 píxeles de ancho por 1080 píxeles de alto, velocidad de fotogramas de 25 fps y 16,67 millones de resoluciones de color. Este dispositivo se puede fijar a una mesa de tratamiento dental con un soporte para cámara digital (Hakuba Photo Industry, Tokio, Japón). En este estudio, se utilizaron imágenes de 23 tipos de instrumentos/objetos comúnmente utilizados en el Departamento de Odontología Restauradora y Endodoncia del Hospital Dental de la Universidad de Osaka, y las manos de un cirujano para el reconocimiento de imágenes (Fig. 1). Desde el 13 de agosto de 2018 hasta el 25 de septiembre de 2018, la mesa de tratamiento fue fotografiada 64 veces con este dispositivo durante el tratamiento de pacientes consentidos en el Hospital y se seleccionaron 508 imágenes sin duplicación mediante examen ocular. Dado que la cantidad de imágenes que se pueden tomar en la clínica está limitada a la cantidad de imágenes que se pueden tomar en una sala de la clínica durante un examen real, usamos un iPhone7 (Apple, California, EE. UU.) para capturar 1 a 3 de los 23 instrumentos diferentes en la bandeja, obteniendo 1425 imágenes, que fueron aumentadas para crear 1943 imágenes utilizadas en este estudio (Tabla 1).
Para las imágenes de 1943 utilizadas para el entrenamiento, se etiquetaron los tipos de instrumentos presentes y la información de coordenadas BB sobre los instrumentos. Aquí el etiquetado se realizó utilizando dos métodos de anotación diferentes. El primer método de anotación (Anotación A: AA) anota una parte específica del instrumento (Fig. 2). La “parte específica del instrumento” se refiere a una parte que caracteriza al instrumento, excluyendo las partes comunes a otros instrumentos, por ejemplo, la parte de agarre, la superficie del espejo en la punta de un espejo dental o la escala en la punta de una sonda, ( Higo. 1). El segundo método de anotación (Anotación B: AB) anota todo el instrumento (Fig. 3). En este método, «condenser», «condenser_disk» y «condenser_round» se tratan como la misma etiqueta. Por lo tanto, el número de tipos de etiquetado fue de 22. Además, fue difícil definir algunas partes específicas, como «abrazadera*», «plato*», «regla de dedo*», «escariador*», «guarda_escariador*», «mano». *” y “algodón*”, como una parte característica de un instrumento, por lo que, en tales casos, todo el aparato se anotó utilizando cualquiera de los dos métodos de anotación. EtiquetaImg22 se utilizó para el etiquetado, realizando el conjunto de datos de entrenamiento.
De manera similar, para crear el conjunto de datos de evaluación, se seleccionaron 200 imágenes sin duplicación mediante examen ocular de imágenes tomadas durante 98 exámenes de pacientes que dieron su consentimiento entre el 26 de septiembre de 2018 y el 22 de enero de 2020, y se anotaron estas imágenes (Tabla 2).
Entrenamiento y evaluación del sistema de reconocimiento de imágenes
YOLOv46 y YOLOv77 como sistema de reconocimiento de imágenes. Son detectores de una etapa que estiman la posición y la etiqueta de un objeto existente utilizando una única red CNN.
Para los parámetros de la red neuronal YOLOv4, el tamaño de entrada se cambió a (832 × 832). Para AA, el número de salidas se cambió a 24 y para AB, el número de salidas se cambió a 22. YOLOv4 realiza la detección de objetos utilizando un cuadro de anclaje de tamaño predeterminado. El tamaño adecuado del cuadro de anclaje para el entrenamiento y la inferencia difiere entre anotar una parte específica de un instrumento y anotar todo el instrumento porque el tamaño del objeto de destino difiere entre los dos casos. Por lo tanto, usamos el método k-means para calcular el tamaño apropiado del cuadro de anclaje en función del tamaño del BB en cada imagen.6. Esto resultó en cuadros ancla de {(17, 23), (21, 39), (78, 38), (76, 71), (74, 117), (118, 187), (210, 118), ( 228, 260), (360, 568)} para AA, {(16, 23), (26, 26), (17, 40), (104, 53), (69, 106), (138, 196) , (364, 92), (381, 220), (342, 426)} para AB.
Para los parámetros de la red neuronal YOLOv7, usamos el modelo YOLOv7-E6 y el tamaño de entrada se cambió a (1280 × 1280), y otros parámetros se dejaron por defecto.
Para evaluar la precisión de la detección del número de instrumentos presentes en una clínica utilizando el sistema de reconocimiento de imágenes entrenado, el número de cada instrumento detectado a través del reconocimiento de imágenes se estableció como verdadero si era correcto y falso en caso contrario, y el porcentaje de verdadero el reconocimiento para cada instrumento se calculó como el DA. Además, como métrica de evaluación del desempeño del sistema de reconocimiento de imágenes, se obtuvo una precisión promedio (AP) en la intersección sobre la unión (IoU) = 50% para cada instrumento utilizando el mismo método que PASCAL VOC Challenge23.
Para «condensador», «condensador_disco» y «condensador_redondo» en AA, los resultados se promediaron y resumieron como «condensador».
Se utilizó una PC de escritorio con CPU Intel Xeon Gold 6226R, 96 GB de RAM, GPU NVIDIA Quadro RTX6000 y SO Ubuntu 18.04 para entrenar y evaluar YOLOv4 y YOLOv7.
Este estudio se realizó siguiendo la aprobación del Comité de Revisión Ética (H29-E23) de la Facultad de Odontología y Hospital Dental de la Universidad de Osaka, y se realizó de acuerdo con las «Pautas éticas para la investigación médica y biológica en seres humanos». Aunque los datos obtenidos en este estudio no contienen información identificatoria, las condiciones de los instrumentos durante el examen fueron fotografiadas solo después de explicar el estudio a los pacientes y obtener previamente su consentimiento informado.


