Généralisabilité limitée d'un seul réseau de neurones profonds pour la segmentation des instruments chirurgicaux dans différents environnements chirurgicaux
MaisonMaison > Blog > Généralisabilité limitée d'un seul réseau de neurones profonds pour la segmentation des instruments chirurgicaux dans différents environnements chirurgicaux

Généralisabilité limitée d'un seul réseau de neurones profonds pour la segmentation des instruments chirurgicaux dans différents environnements chirurgicaux

Dec 30, 2023

Rapports scientifiques volume 12, Numéro d'article : 12575 (2022) Citer cet article

917 accès

2 Altmétrique

Détails des métriques

Clarifier la généralisabilité des réseaux de segmentation d'instruments chirurgicaux basés sur l'apprentissage en profondeur dans divers environnements chirurgicaux est important pour reconnaître les défis du surajustement dans le développement d'appareils chirurgicaux. Cette étude a évalué de manière exhaustive la généralisabilité du réseau de neurones profonds pour la segmentation des instruments chirurgicaux à l'aide de 5238 images extraites au hasard de 128 vidéos peropératoires. L'ensemble de données vidéo contenait 112 cas de résection colorectale laparoscopique, 5 gastrectomies distales laparoscopiques, 5 cholécystectomies laparoscopiques et 6 cas d'hépatectomie partielle laparoscopique. La segmentation des instruments chirurgicaux basée sur l'apprentissage en profondeur a été réalisée pour les ensembles de test avec (1) les mêmes conditions que l'ensemble de formation ; (2) le même instrument chirurgical de cible de reconnaissance et le même type de chirurgie mais différents systèmes d'enregistrement laparoscopique; (3) le même système d'enregistrement laparoscopique et le même type de chirurgie mais une pince chirurgicale laparoscopique cible de reconnaissance légèrement différente ; (4) le même système d'enregistrement laparoscopique et l'instrument chirurgical cible de reconnaissance mais différents types de chirurgie. La précision moyenne moyenne et l'intersection moyenne sur l'union pour les ensembles de tests 1, 2, 3 et 4 étaient de 0,941 et 0,887, 0,866 et 0,671, 0,772 et 0,676 et 0,588 et 0,395, respectivement. Par conséquent, la précision de la reconnaissance a diminué même dans des conditions légèrement différentes. Les résultats de cette étude révèlent la généralisabilité limitée des réseaux de neurones profonds dans le domaine de l'intelligence artificielle chirurgicale et mettent en garde contre les ensembles de données et les modèles biaisés basés sur l'apprentissage en profondeur.

Numéro d'enregistrement de l'essai : 2020-315, date d'enregistrement : 5 octobre 2020.

La chirurgie mini-invasive (MIS), y compris la chirurgie robotique, est devenue de plus en plus courante1. Le SIG qui utilise des endoscopes pour observer l'anatomie interne est préféré pour de nombreuses procédures chirurgicales car un champ de vision chirurgical agrandi peut être obtenu à travers l'endoscope. En outre, les procédures chirurgicales peuvent être stockées sous forme de données vidéo ; par conséquent, cette approche facilite non seulement la formation et l'éducation chirurgicales, mais également la science des données chirurgicales2, comme la vision par ordinateur utilisant l'apprentissage en profondeur.

La vision par ordinateur est un domaine de recherche qui décrit la compréhension automatique des images et des vidéos, et des avancées significatives ont permis aux machines d'atteindre des capacités de niveau humain dans des domaines tels que la reconnaissance d'objets et de scènes3. Le principal travail lié aux soins de santé en vision par ordinateur est le diagnostic assisté par ordinateur, comme la détection des polypes du côlon4,5 et la détection du cancer de la peau6,7 ; cependant, l'application de la chirurgie assistée par ordinateur s'est également accélérée8,9. En particulier, la segmentation des instruments chirurgicaux et le suivi de leurs pointes sont des technologies sous-jacentes importantes car elles peuvent être appliquées à l'évaluation des compétences chirurgicales10,11, et elles sont essentielles pour la réalisation d'une chirurgie automatique et autonome12.

La segmentation est une tâche de vision par ordinateur dans laquelle des images entières sont divisées en groupes de pixels qui peuvent être étiquetés et classés. En particulier, la segmentation sémantique tente de comprendre sémantiquement le rôle de chaque pixel dans les images13. La segmentation d'instance, qui prolonge la segmentation sémantique, segmente différentes instances de classes, c'est-à-dire étiquetant cinq individus avec cinq couleurs différentes ; par conséquent, il peut identifier les limites, les différences et les relations entre les objets pour plusieurs objets qui se chevauchent14.

Ces approches de vision par ordinateur ont une grande applicabilité à la reconnaissance des instruments chirurgicaux dans les vidéos peropératoires pour MIS, et, ces dernières années, de nombreux efforts ont été déployés pour développer la segmentation des instruments chirurgicaux15,16. Parmi eux, la Medical Image Computing and Computer Assisted Interventions Society a organisé des défis internationaux basés sur la précision de la reconnaissance pour la segmentation des instruments chirurgicaux et le Endoscopic Vision Challenge15,17,18,19 ; de nouveaux réseaux de neurones profonds ont battu le record de précision de segmentation de pointe. Cependant, ces efforts ont été effectués sur des ensembles de données vidéo correspondant au même type de chirurgie utilisant un type fixe d'instrument chirurgical et le même type de système d'enregistrement laparoscopique, contrairement aux paramètres chirurgicaux réels. En pratique, il existe de nombreuses conditions différentes dans des situations chirurgicales réelles. Par exemple, différents types de systèmes d'enregistrement laparoscopiques et d'instruments chirurgicaux laparoscopiques sont utilisés dans différents hôpitaux ; de plus, les dispositifs chirurgicaux sont mis à niveau et leurs formes changent légèrement toutes les quelques années. Lors de l'examen des propriétés à usage général d'un seul réseau de reconnaissance d'instruments chirurgicaux, il est également important de vérifier l'applicabilité du réseau à d'autres types de chirurgie, c'est-à-dire de clarifier la différence dans la précision de la reconnaissance lorsqu'un réseau de reconnaissance qui a été développé basée sur les données d'un certain type de chirurgie est appliquée à un autre type de chirurgie. Bien que de telles conditions liées à la précision de la reconnaissance puissent clarifier l'importance de la construction d'un ensemble de données vidéo peropératoire avec diversité, aucune étude approfondie sur la généralisabilité d'un seul réseau de reconnaissance d'instruments chirurgicaux n'a été rapportée. Par conséquent, les résultats de cette étude sont importants car ils fournissent des informations précieuses pour le développement et la mise en œuvre chirurgicaux futurs.

Cette étude visait à évaluer la généralisabilité d'un seul réseau de neurones profonds pour une segmentation complète des instruments chirurgicaux, clarifiant ainsi la différence de précision de segmentation lorsqu'un seul réseau est appliqué à différentes situations, telles que le type de système d'enregistrement laparoscopique, l'instrument chirurgical cible de reconnaissance , et la chirurgie.

Cette recherche impliquait une étude observationnelle expérimentale rétrospective utilisant un ensemble de données vidéo peropératoires de cinq établissements. Un total de 5238 images extraites au hasard de 128 vidéos peropératoires ont été utilisées. Les critères de sélection des images étaient que l'instrument chirurgical cible devait être clairement visible, et les images floues et/ou les images avec du brouillard étaient exclues. L'ensemble de données vidéo contenait 112 cas de résection colorectale laparoscopique (LCRR), 5 cas de gastrectomie distale laparoscopique (LDG), 5 cas de cholécystectomie laparoscopique (LC) et 6 cas d'hépatectomie partielle laparoscopique (LPH).

Cette étude a suivi les lignes directrices du renforcement de la notification des études observationnelles en épidémiologie (STROBE)20. Le protocole de cette étude a été examiné et approuvé par le comité d'éthique du National Cancer Center Hospital East, Chiba, Japon (numéro d'enregistrement : 2020-315). Le consentement éclairé a été obtenu sous la forme d'un opt-out sur le site Web de l'étude, et les données de ceux qui ont refusé de participer ont été exclues. L'étude était conforme aux dispositions de la Déclaration d'Helsinki établie en 1964 (et révisée au Brésil en 2013).

L'ensemble de formation contenait 4074 images, qui ont été extraites au hasard de 85 vidéos peropératoires de LCRR, et au moins l'un des trois types d'instruments chirurgicaux suivants a été capturé dans chaque image : (T1) Harmonic Shears (Ethicon Inc., Somerville, NJ, États-Unis), (T2) électrocoagulation chirurgicale endoscopique (Olympus Co., Ltd., Tokyo, Japon) et (T3) pince universelle atraumatique Aesculap AdTec (B Braun AG, Melsungen, Allemagne). Des images représentatives de T1–3 sont présentées sur la figure 1A. Chaque vidéo peropératoire a été enregistrée à l'aide d'un laparoscope Endoeye (Olympus Co., Ltd., Tokyo, Japon) et du système Visera Elite II (Olympus Co., Ltd, Tokyo, Japon).

Images représentatives des instruments chirurgicaux cibles de reconnaissance dans cette étude. (A) Instruments chirurgicaux contenus dans l'ensemble de formation (T1 : cisailles harmoniques ; T2 : électrocoagulation chirurgicale endoscopique ; T3 : pince universelle atraumatique Aesculap AdTec). (B) Pince chirurgicale laparoscopique non contenue dans l'ensemble de formation (T4 : Maryland ; T5 : Croce-Olmi ; T6 : porte-aiguille).

L'ensemble de validation contenait 345 images de neuf vidéos peropératoires, et les conditions, qui comprenaient le type de système d'enregistrement laparoscopique, l'instrument chirurgical cible de reconnaissance et la chirurgie, étaient les mêmes que celles de l'ensemble de formation.

L'ensemble de test 1 contenait 369 images de 10 vidéos peropératoires, et les conditions étaient les mêmes que celles de l'ensemble de formation.

L'ensemble de test 2 contenait 103 images, y compris des instruments chirurgicaux extraits de cinq vidéos peropératoires. Bien que les types d'instruments chirurgicaux et de chirurgies cibles de reconnaissance soient les mêmes que ceux de l'ensemble de formation, les vidéos ont été enregistrées à l'aide de différents types de systèmes laparoscopiques, y compris un système de caméra 1488 HD 3-Chip (Stryker Corp., Kalamazoo, MI, USA) et le système de caméra Image 1 S (Karl Storz SE & Co., KG, Tuttlingen, Allemagne).

L'ensemble de test 3 contenait 124 images qui capturaient des instruments chirurgicaux extraits de trois vidéos peropératoires. Bien que le système d'enregistrement laparoscopique et les types de chirurgie soient les mêmes que ceux de l'ensemble de formation, les types de cibles de reconnaissance étaient les pinces chirurgicales laparoscopiques suivantes avec des formes de pointe légèrement différentes de celles de T3 : (T4) Maryland (Olympus Co., Ltd., Tokyo , Japon); (T5) Croce-Olmi (Karl Storz SE & Co., KG, Tuttlingen, Allemagne); (T6) porte-aiguille (Karl Storz SE & Co., KG, Tuttlingen, Allemagne). T4–T6 n'étaient pas inclus dans l'ensemble d'apprentissage, et nous avons testé s'ils pouvaient être reconnus comme T3. Des images représentatives de T4 à T6 sont présentées sur la figure 1B.

L'ensemble de test 4 contenait 223 images qui capturaient des instruments chirurgicaux extraits de 16 vidéos peropératoires de différents types de chirurgie, y compris LDG, LC et LPH. Les autres conditions, y compris les types de système d'enregistrement laparoscopique et d'instrument chirurgical cible de reconnaissance, étaient les mêmes que celles de l'ensemble de formation.

Chaque image incluse dans chaque ensemble pour la formation, la validation et le test a capturé au moins un type d'instrument chirurgical. Les caractéristiques de l'ensemble d'apprentissage, de l'ensemble de validation et de chaque ensemble de test sont résumées dans le tableau 1.

L'annotation a été réalisée par 14 non-médecins sous la supervision de chirurgiens, et toutes les images annotées ont été revérifiées par des chirurgiens. Les étiquettes d'annotation ont été attribuées manuellement pixel par pixel en dessinant directement sur la zone de chaque instrument chirurgical dans les images à l'aide de Wacom Cintiq Pro (Wacom Co., Ltd., Saitama, Japon) et Wacom Pro Pen 2 (Wacom Co., Ltd. , Saitama, Japon). Les images annotées représentatives sont présentées dans la Fig. 1 supplémentaire.

Chaque vidéo peropératoire a été convertie au format vidéo MP4 avec une résolution d'affichage de 1280 × 720 pixels et une fréquence d'images de 30 images par seconde (fps), et aucun suréchantillonnage ni sous-échantillonnage n'a été effectué.

La répartition des données a été effectuée au niveau par cas au lieu du niveau par image ; ainsi, aucune image extraite d'une vidéo peropératoire dans l'ensemble d'apprentissage n'est apparue dans les ensembles de test.

Un réseau neuronal convolutif basé sur la région de masque (R-CNN) avec une convolution déformable14,21 et ResNet5022 ont été utilisés comme modèle de segmentation d'instance et réseau de base, respectivement, et chaque image annotée dans l'ensemble d'apprentissage a été entrée dans le modèle. L'architecture du modèle et le flux de travail du réseau neuronal profond sont illustrés à la Fig. 2 supplémentaire. Le poids du réseau a été initialisé sur un poids pré-formé sur les ensembles de données ImageNet23 et COCO24, et un réglage fin a ensuite été effectué pour l'ensemble d'apprentissage. ImageNet est une grande base de données visuelle conçue pour être utilisée dans les tâches de reconnaissance visuelle d'objets. Il contient plus de 14 millions d'images avec des étiquettes de plus de 20 000 catégories typiques, telles que "ballon" et "fraise". COCO est un ensemble de données à grande échelle pour la détection, la segmentation et le sous-titrage d'objets. Il contient plus de 120 000 images avec plus de 880 000 instances étiquetées pour 80 types d'objets.

Le modèle a été formé et testé pour faire la distinction entre T1, T2 et T3. Pour le jeu de test 3, le modèle a été testé pour savoir si T4, T5 et T6 pouvaient être reconnus comme T3. Le meilleur modèle d'époque basé sur les performances du modèle sur l'ensemble de validation a été sélectionné. Des retournements horizontaux et verticaux ont été utilisés pour l'augmentation des données. Les hyperparamètres utilisés pour la formation du modèle sont répertoriés dans le tableau supplémentaire 1.

Le code a été écrit à l'aide de Python 3.6 (Python Software Foundation, Wilmington, DE, USA) et le modèle a été implémenté sur la base de MMDetection25, qui est une bibliothèque Python open source pour la détection d'objets et la segmentation d'instances.

Un ordinateur équipé d'un GPU NVIDIA Quadro GP100 avec 16 Go de VRAM (NVIDIA, Santa Clara, Californie, États-Unis) et d'un processeur Intel® Xeon® E5-1620 v4 à 3,50 GHz avec 32 Go de RAM a été utilisé pour la formation réseau.

L'intersection sur l'union (IoU) et la précision moyenne (AP) ont été utilisées comme mesures pour évaluer les performances du modèle pour la tâche de segmentation des instruments chirurgicaux.

L'IoU a été calculé pour chaque paire de X (la zone annotée comme vérité terrain) et Y (sortie de zone prédite par le modèle), qui mesure simplement le chevauchement des deux zones divisées par leur union, comme suit :

L'AP moyen (mAP) est une métrique largement utilisée pour les tâches de détection d'objets et de segmentation d'instances23,24,26. Il est calculé à partir de l'aire sous la courbe précision-rappel qui est décrite en fonction du nombre de vrais positifs (TP), de faux négatifs (FN) et de faux positifs (FP). Les paires attribuées de X et Y ont été définies comme TP et FN lorsque leur IoU était supérieure et inférieure à 0,75, respectivement, et elles ont été définies comme FP lorsqu'aucune paire ne pouvait être attribuée.

Pour confirmer la reproductibilité des résultats, nous avons formé cinq modèles pour chaque ensemble de tests avec différentes graines aléatoires et avons rapporté les mesures moyennées sur les cinq modèles comme moyenne (± écart type).

Comité d'éthique du National Cancer Center Hospital East, Chiba, Japon (numéro d'enregistrement : 2020-315).

Le consentement éclairé a été obtenu sous la forme d'un opt-out sur le site Web de l'étude.

Les auteurs affirment que les participants humains à la recherche ont donné leur consentement éclairé pour la publication des images dans les figures.

Les résultats de l'ensemble de test 1 sont présentés sur la figure 2A. La mAP et l'IoU moyenne (mIoU) pour l'ensemble de tests 1 étaient de 0,941 (± 0,035) et 0,887 (± 0,012), respectivement, et l'AP et l'IoU pour T1, T2 et T3 étaient de 0,958 et 0,892, 0,969 et 0,895 et 0,895 et 0,876, respectivement (Fig. 2A). Ces résultats ont été utilisés comme valeurs de contrôle pour la comparaison dans cette étude.

Résultats de précision de la reconnaissance des instruments chirurgicaux (précision moyenne AP, intersection IoU sur l'union, précision moyenne mAP, intersection moyenne mIoU sur l'union). (A) AP et IoU dans les mêmes conditions que l'ensemble d'entraînement (T1 : cisailles harmoniques ; T2 : électrocoagulation chirurgicale endoscopique ; T3 : pince universelle atraumatique Aesculap AdTec). (B) mAP et mIoU pour différents types de systèmes d'enregistrement laparoscopique. (C) AP et IoU pour différents types de pinces chirurgicales laparoscopiques (T3 : pince universelle atraumatique Aesculap AdTec ; T4 : Maryland ; T5 : Croce-Olmi ; T6 : porte-aiguille). (D) mAP et mIoU pour différents types de chirurgie (résection colorectale laparoscopique LCRR, gastrectomie distale laparoscopique LDG, cholécystectomie laparoscopique LC, hépatectomie partielle laparoscopique LPH).

Le mAP et le mIoU pour l'ensemble de test 2 étaient de 0,866 (± 0,035) et 0,671 (± 0,082), respectivement. Ces résultats indiquent que lorsque différents systèmes d'enregistrement laparoscopique ont été utilisés, le mAP et le mIoU se sont légèrement détériorés par rapport aux valeurs témoins, même si les autres conditions étaient les mêmes que pour l'ensemble d'entraînement. Les valeurs mIAP et mIoU acquises lors de l'utilisation des systèmes d'enregistrement laparoscopique produits par les caméras Stryker et Karl Storz étaient respectivement de 0,893 et ​​0,608 et 0,839 et 0,735 (Fig. 2B). Les images représentatives enregistrées par chaque système d'enregistrement laparoscopique sont illustrées à la Fig. 3. Chaque tonalité de couleur est légèrement différente, même dans l'observation macroscopique.

Images représentatives enregistrées par chaque système d'enregistrement laparoscopique. (A) Laparoscope Endoeye (Olympus Co., Ltd., Tokyo, Japon) et système Visera Elite II (Olympus Co., Ltd, Tokyo, Japon). (B) Système de caméra 1488 HD à 3 puces (Stryker Corp., Kalamazoo, MI, USA). (C) Système de caméra Image 1 S (Karl Storz SE & Co., KG, Tuttlingen, Allemagne).

Les mAP et mIoU pour l'ensemble de tests 3 étaient de 0,772 (± 0,062) et 0,676 (± 0,072), respectivement. Bien que T4-T6 soient également classés comme des forceps chirurgicaux laparoscopiques au sens large, la précision de reconnaissance pour T4-T6 s'est détériorée par rapport à celle de T3. L'AP et l'IoU pour T4, T5 et T6 étaient de 0,715 et 0,678, 0,756 et 0,592, et 0,846 et 0,758, respectivement (Fig. 2C).

Les mAP et mIoU pour l'ensemble de tests 4 étaient de 0,588 (± 0,151) et 0,395 (± 0,127), respectivement. Pour un type de chirurgie différent, les valeurs de mAP et mIoU se sont significativement détériorées par rapport aux valeurs témoins, même si les autres conditions étaient les mêmes que pour l'ensemble d'entraînement. Les mAP et mIoU pour LDG, LC et LPH étaient de 0,782 et 0,565, 0,468 et 0,300, et 0,513 et 0,319, respectivement (Fig. 2D). Les images représentatives pour chaque type de chirurgie sont présentées à la Fig. 4. Les instruments chirurgicaux de premier plan sont les mêmes, en particulier en LC et en LPH ; cependant, le fond est significativement différent du cas LCRR, même pour l'observation macroscopique.

Images représentatives de chaque type de chirurgie. (A) LCRR ; (B) GLD ; (C) CL ; (D) LPH.

La précision de la segmentation des instruments chirurgicaux et les résultats de segmentation représentatifs pour chaque ensemble de tests sont présentés dans le tableau 2 et la figure supplémentaire 3, respectivement.

Dans cette étude, nous avons démontré que notre réseau de segmentation d'instruments chirurgicaux possède une grande précision (mAP : 0,941, mIoU : 0,887). Cependant, la généralisabilité d'un seul réseau de neurones profonds appliqué à la chirurgie laparoscopique a des limites, c'est-à-dire qu'un changement mineur dans les conditions de la chirurgie laparoscopique affecte de manière significative la précision de reconnaissance de l'instrument chirurgical.

Premièrement, ces résultats suggèrent que l'ensemble de données vidéo peropératoire enregistré par un seul système d'enregistrement laparoscopique est insuffisant pour généraliser un réseau neuronal profond. La précision de la reconnaissance pour l'ensemble de test 2 s'est légèrement détériorée car la tonalité de couleur était légèrement différente entre les images enregistrées par chaque système, même si les mêmes objets ont été capturés dans chaque image. Deuxièmement, comme il existe de nombreux types d'instruments chirurgicaux, des différences entre les hôpitaux et des mises à jour des versions d'appareils chirurgicaux produites par chaque entreprise toutes les plusieurs années, l'ensemble de formation doit être mis à jour à mesure que les gammes d'appareils et les versions des hôpitaux changent. Troisièmement, même si un réseau de reconnaissance d'instruments chirurgicaux très précis est développé avec succès pour un type de chirurgie, il ne peut pas être appliqué à d'autres types de chirurgie avec une précision similaire. En particulier, plus l'arrière-plan de l'image est différent de l'ensemble d'apprentissage, plus la précision de la reconnaissance est faible. En résumé, la diversité de l'ensemble de formation en termes de type de système d'enregistrement laparoscopique, de types et de versions d'instruments chirurgicaux et de type de chirurgie utilisé comme image de fond est considérée comme cruciale lors de l'application d'un réseau neuronal profond à la chirurgie multi-institutionnelle dans un contexte chirurgical réel.

Plusieurs chercheurs précédents ont étudié la généralisabilité des réseaux de neurones profonds, en particulier le soi-disant "changement de domaine", qui fait référence à la formation d'un réseau sur les données d'un domaine et à son application aux données d'un autre. Zech et al. ont étudié la formation d'un CNN pour le dépistage de la pneumonie sur les radiographies pulmonaires généralisées à de nouvelles cohortes, et ils ont identifié des performances significativement inférieures lorsque le réseau était appliqué à des images radiographiques collectées dans des hôpitaux qui n'étaient pas inclus dans l'ensemble de formation27. Des chercheurs antérieurs ont étudié les performances de reconnaissance d'images d'imagerie par résonance magnétique (IRM) cérébrale basées sur CNN et ont démontré que les performances d'un CNN formé sur des images IRM provenant de cohortes de recherche homogènes diminuent généralement lorsqu'il est appliqué à d'autres cohortes28,29. Cependant, à notre connaissance, la présente étude est la première dans laquelle la généralisabilité d'un seul réseau de neurones profonds pour la segmentation des instruments chirurgicaux a été étudiée de manière approfondie.

La reconnaissance automatique d'instruments chirurgicaux peut être appliquée aux deux grands domaines de recherche suivants : la robotique et l'évaluation des compétences. L'asservissement visuel est "contrôlé activement", ce qui signifie qu'il utilise des informations visuelles pour contrôler la pose de l'effecteur final du robot par rapport à un objet cible30. Les robots porte-laparoscope avec asservissement visuel peuvent aider les chirurgiens à se concentrer pleinement sur la tâche chirurgicale. Dans les robots porte-laparoscope, la clé de l'asservissement visuel est le cadre de suivi sans marqueur des instruments chirurgicaux31,32. Par conséquent, dans le futur du domaine chirurgical, la technologie de reconnaissance automatique des instruments chirurgicaux jouera un rôle central dans le développement de robots porte-laparoscope et la réalisation de SIG autonomes. Des outils d'évaluation des compétences chirurgicales, tels que l'évaluation objective structurée des compétences techniques33 et l'évaluation opératoire globale des compétences laparoscopiques34, ont été utilisés pour évaluer objectivement les compétences chirurgicales de base des stagiaires en chirurgie ; cependant, ces outils reposent sur les observations et les jugements d'un individu35, qui sont inévitablement associés à la subjectivité et aux préjugés. Par conséquent, l'évaluation automatique des compétences chirurgicales, juste et objective, sans processus d'examen vidéo fastidieux, a attiré l'attention ces dernières années. La reconnaissance automatique des instruments chirurgicaux joue également un rôle central dans l'extraction des données cinématiques associées aux compétences chirurgicales dans le SIG.

Dans la recherche supervisée d'apprentissage en profondeur, les dépenses et la consommation de temps du processus d'annotation manuelle utilisé pour construire des ensembles de données à grande échelle représentatifs des paramètres du monde réel sont des limitations majeures. De plus, même si un réseau de neurones profonds pouvant démontrer des performances élevées dans des conditions spécifiques est développé pour une tâche de segmentation d'instruments chirurgicaux, son utilité est limitée car les conditions réelles sont diverses et variables, et il est presque impossible de toutes les considérer. Par conséquent, la clarification des conditions auxquelles un seul réseau de segmentation d'instruments chirurgicaux peut être appliqué est très importante pour le développement et la mise en œuvre futurs en termes de réduction du coût et du temps d'annotation. Étant donné que les résultats de cette étude ont démontré que même de légers changements dans l'arrière-plan de l'image affectent la précision de la reconnaissance des instruments chirurgicaux, l'omission de l'étape d'annotation n'est pas recommandée. Compte tenu des caractéristiques des réseaux de neurones profonds, en particulier des approches de reconnaissance d'images basées sur CNN dans lesquelles l'extraction de caractéristiques de chaque pixel d'une image est tentée, ces résultats semblent raisonnables. Cependant, il pourrait être possible d'éliminer les heures de travail nécessaires à l'annotation en introduisant un réseau de segmentation semi-supervisé même dans différents environnements chirurgicaux, et cela devrait être vérifié dans les études futures.

Il y a plusieurs limites à cette étude. Premièrement, l'objectif de cette étude était de clarifier comment la généralisabilité des réseaux de neurones profonds était limitée dans le domaine de la recherche en intelligence artificielle chirurgicale, et la mise en garde contre les ensembles de données biaisés et les modèles basés sur eux était également implicite. La généralisabilité peut être améliorée en introduisant différentes méthodes d'augmentation de données ou différentes architectures de modèles ; cependant, comme ce n'était pas l'objectif principal de cette étude, il n'a pas été pris en compte. Deuxièmement, bien que l'ensemble de données vidéo utilisé dans cette étude contienne des données multi-institutionnelles relativement importantes, il s'agissait d'une étude d'observation expérimentale rétrospective et aucune validation prospective n'a été effectuée. De plus, étant donné que l'ensemble de données ne contenait que des images avec des instruments chirurgicaux, la FP des images sans instruments chirurgicaux n'était pas reflétée dans les résultats. Troisièmement, bien que les résultats de l'étude soient considérés comme des références très importantes pour la recherche et le développement futurs utilisant les réseaux de neurones profonds en chirurgie, ils n'apportent aucun avantage clinique direct pour le moment car nous en sommes encore à la phase initiale.

En conclusion, dans une tâche de segmentation d'instruments chirurgicaux, la généralisabilité d'un seul réseau de neurones profonds est limitée, c'est-à-dire que la précision de la reconnaissance se détériore même dans des conditions légèrement différentes. Par conséquent, pour améliorer la capacité de généralisation d'un réseau de neurones profonds, il est crucial de construire un ensemble de formation qui tient compte de la diversité de l'environnement chirurgical dans un contexte chirurgical réel.

Les ensembles de données générés et analysés au cours de la présente étude sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Disponible via GitHub sur demande raisonnable.

Siddaiah-Subramanya, M., Tiang, KW & Nyandowe, M. Une nouvelle ère de chirurgie mini-invasive : Progrès et développement d'innovations techniques majeures en chirurgie générale au cours de la dernière décennie. Surg. J. (NY) 3, e163–e166 (2017).

Article Google Scholar

Maier-Hein, L. et al. Science des données chirurgicales pour les interventions de nouvelle génération. Nat. Biomédical. Ing. 1, 691–696 (2017).

Article Google Scholar

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, OR Intelligence artificielle en chirurgie : promesses et périls. Ann. Surg. 268, 70–76 (2018).

Article Google Scholar

Mori, Y. et al. Utilisation en temps réel de l'intelligence artificielle dans l'identification des polypes diminutifs au cours de la coloscopie : une étude prospective. Ann. Interne. Méd. 169, 357–366 (2018).

Article Google Scholar

Li, C. et al. Développement et validation d'un modèle d'apprentissage profond basé sur des images endoscopiques pour la détection des tumeurs malignes du nasopharynx. Cancer Commun. (Londres.) 38, 59 (2018).

Article Google Scholar

Dascalu, A. & David, EO Détection du cancer de la peau par apprentissage en profondeur et algorithmes d'analyse sonore : étude clinique prospective d'un dermoscope élémentaire. EBioMedicine 43, 107–113 (2019).

Article CAS Google Scholar

Phillips, M. et al. Évaluation de la précision d'un algorithme d'intelligence artificielle pour détecter le mélanome dans les images de lésions cutanées. Réseau JAMA. Ouvrez 2, e1913436 (2019).

Article Google Scholar

Hashimoto, DA et al. Analyse par vision artificielle de la vidéo peropératoire : Reconnaissance automatisée des étapes opératoires de la sleeve gastrectomie laparoscopique. Ann. Surg. 270, 414–421 (2019).

Article Google Scholar

Ward, TM et al. Identification automatisée de la phase opératoire dans la myotomie endoscopique perorale. Surg. Endoc. 35, 4008–4015 (2021).

Article Google Scholar

Lee, D. et al. Évaluation des compétences chirurgicales pendant la chirurgie robotique par le suivi de plusieurs instruments chirurgicaux basé sur l'apprentissage en profondeur dans la formation et les opérations réelles. J.Clin. Méd. 9, 1964 (2020).

Article Google Scholar

Levin, M., McKechnie, T., Khalid, S., Grantcharov, TP et Goldenberg, M. Méthodes automatisées d'évaluation des compétences techniques en chirurgie : une revue systématique. J. Surg. Éduc. 76, 1629-1639 (2019).

Article Google Scholar

Zhang, J. & Gao, X. Extraction d'objets via un cadre de suivi sans marqueur basé sur l'apprentissage en profondeur d'instruments chirurgicaux pour robots porte-laparoscope. Int. J. Comput. Aider. Radiol. Surg. 15, 1335-1345 (2020).

Article Google Scholar

Shelhamer, E., Long, J. & Darrell, T. Réseaux entièrement convolutionnels pour la segmentation sémantique. IEEE Trans. Modèle Anal. Mach. Renseignement. 39, 640–651 (2017).

Article Google Scholar

He, K., Gkioxari, G., Dollar, P. & Girshick, R. Mask R-CNN. IEEE Trans. Modèle Anal. Mach. Renseignement. 42, 386–397 (2020).

Article Google Scholar

Hasan, SMK & Linte, CA U-NetPlus : Une architecture U-Net d'encodeur-décodeur modifiée pour la segmentation sémantique et d'instance d'instruments chirurgicaux à partir d'images laparoscopiques. Biol. Soc. Annu. Int. Conf. IEEE Eng. Méd. 2019, 7205–7211 (2019).

Google Scholar

Kanakatte, A., Ramaswamy, A., Gubbi, J., Ghose, A. & Purushothaman, B. Segmentation et localisation d'outils chirurgicaux à l'aide d'un réseau profond spatio-temporel. Annu. Int. Conf. IEEE Eng. Méd. Biol. Soc. Annu. Int. Conf. IEEE Eng. 2020, 1658-1661 (2020).

Google Scholar

Ni, ZL et al. RASNet : segmentation pour le suivi des instruments chirurgicaux dans les vidéos chirurgicales à l'aide d'un réseau de segmentation de l'attention raffiné. Int. Conf. IEEE Eng. Méd. Biol. Soc. Annu. Int. Conf. IEEE Eng. 2019, 5735–5738 (2019).

Google Scholar

Du, X. et al. Estimation de pose 2D multi-instruments articulée à l'aide de réseaux entièrement convolutifs. IEEE Trans. Méd. Imagerie 37, 1276-1287 (2018).

Article Google Scholar

Zhao, Z., Cai, T., Chang, F. et Cheng, X. Détection d'instruments chirurgicaux en temps réel dans la chirurgie assistée par robot à l'aide d'une cascade de réseaux neuronaux convolutifs. Santéc. Technol. Lett. 6, 275–279 (2019).

Article Google Scholar

von Elm, E. et al. La déclaration sur le renforcement de la déclaration des études observationnelles en épidémiologie (STROBE) : Lignes directrices pour la déclaration des études observationnelles. Int. J. Surg. 12, 1495–1499 (2014).

Article Google Scholar

Dai, J. et al., (2017). Réseaux convolutionnels déformables dans Proc. ICCV 764–773.

He, K., Zhang, X., Ren, S. et Sun, J., (2016). Apprentissage résiduel profond pour la reconnaissance d'images. Proc. IEEE Conf. CVPR 770–778.

Russakovsky, O. et al. Défi de reconnaissance visuelle à grande échelle ImageNet. Int. J. Comput. Vis. 115, 211-252 (2015).

Article MathSciNet Google Scholar

Lin, TY et al. Microsoft COCO : objets communs en contexte. Notes de cours en informatique. Proc. IEEE ECCV, 740–755 (2014).

Chen, K. et al. MMDetection : ouvrez la boîte à outils de détection MMLab et le benchmark. arXiv:1906.07155 (2019).

Everingham, M., Van Gool, L., Williams, CKI, Winn, J. & Zisserman, A. Le défi Pascal des classes d'objets visuels (VOC). Int. J. Comput. Vis. 88, 303–338 (2010).

Article Google Scholar

Zech, JR et al. Performance de généralisation variable d'un modèle d'apprentissage en profondeur pour détecter la pneumonie dans les radiographies thoraciques : une étude transversale. PLoS Med. 15, e1002683 (2018).

PubMed PubMed Central Google Scholar

AlBadawy, EA, Saha, A. & Mazurowski, MA Apprentissage en profondeur pour la segmentation des tumeurs cérébrales : impact de la formation et des tests interinstitutionnels. Méd. Phys. 45, 1150-1158 (2018).

Article Google Scholar

Martensson, G. et al. La fiabilité d'un modèle d'apprentissage en profondeur dans les données cliniques d'IRM hors distribution : une étude multicohorte. Méd. Image anale. 66, 101714 (2020).

Article Google Scholar

Hutchinson, S., Hager, GD & Corke, PI Un tutoriel sur le servocommande visuel. IEEE Trans. Robot. Automat. 12, 651–670 (1996).

Article Google Scholar

Uecker, DR, Lee, C., Wang, YF et Wang, Y. Suivi automatisé des instruments en chirurgie laparoscopique assistée par robot. J. Guide des images. Surg. 1, 308–325 (1995).

3.0.CO;2-E" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291522-712X%281995%291%3A6%3C308%3A%3AAID-IGS3%3E3.0.CO%3B2-E" aria-label="Article reference 31" data-doi="10.1002/(SICI)1522-712X(1995)1:63.0.CO;2-E">Article CAS Google Scholar

Ko, SY, Kim, J., Kwon, DS & Lee, WJ Interaction intelligente entre le chirurgien et le système de robot assistant laparoscopique. ROMAIN. IEEE Int. Fonctionne Robot Hum. Interagir. Commun. 20, 60–65 (2005).

Google Scholar

Martin, JA et al. Évaluation structurée objective des compétences techniques (OSATS) pour les résidents en chirurgie. Br. J. Surg. 84, 273-278 (1997).

CAS PubMed Google Scholar

Vassiliou, MC et al. Un outil d'évaluation globale pour l'évaluation des compétences laparoscopiques peropératoires. Suis. J. Surg. 190, 107-113 (2005).

Article Google Scholar

Gofton, WT, Dudek, NL, Wood, TJ, Balaa, F. & Hamstra, SJ L'évaluation de la compétence chirurgicale en salle d'opération d'Ottawa (O-SCORE) : un outil pour évaluer la compétence chirurgicale. Acad. Méd. 87, 1401-1407 (2012).

Article Google Scholar

Télécharger les références

Bureau d'innovation des dispositifs chirurgicaux, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japon

Daichi Kitaguchi, Toru Fujino, Nobuyoshi Takeshita, Hiro Hasegawa et Masaaki Ito

Département de chirurgie colorectale, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japon

Daichi Kitaguchi, Nobuyoshi Takeshita, Hiro Hasegawa et Masaaki Ito

École supérieure d'informatique, Université de Nagoya, Furo-cho, Chikusa-ku, Nagoya, Aichi, 464-8601, Japon

Kensaku Mori

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Tous les auteurs ont contribué à la conception et à la conception de l'étude. La préparation du matériel, la collecte des données et l'analyse ont été réalisées par DK, TF, NT, HH et MI. La première ébauche du manuscrit a été rédigée par DK et tous les auteurs ont commenté les versions précédentes du manuscrit. Tous les auteurs ont lu et approuvé le manuscrit final.

Correspondance à Masaaki Ito.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Kitaguchi, D., Fujino, T., Takeshita, N. et al. Généralisabilité limitée d'un seul réseau de neurones profonds pour la segmentation des instruments chirurgicaux dans différents environnements chirurgicaux. Sci Rep 12, 12575 (2022). https://doi.org/10.1038/s41598-022-16923-8

Télécharger la citation

Reçu : 09 septembre 2021

Accepté : 18 juillet 2022

Publié: 22 juillet 2022

DOI : https://doi.org/10.1038/s41598-022-16923-8

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.