FUSE-AI - Künstliche Intelligenz in der Radiologie

View Original

KI übertrifft Mediziner bei der Erkennung von Brustkrebs

Nachrichten über gute Vorhersageergebnisse von Künstlichen Intelligenzen bei der Auswertung medizinischer Bilder werden immer häufiger. So konnten beispielsweise Algorithmen verschiedene Hautkrankheiten ähnlich gut erkennen wie Dermatologen oder sogar Krebszellen in histologisch ausgewerteten Biopsien besser entdecken als Pathologen.

In diese Reihe an Veröffentlichungen reiht sich nun ein im Januar 2020 erschienenes Nature Paper ein. Einem Konsortium um Google Health (USA) gelang eine überzeugende Vorhersage von Brustkrebs in Mammogrammen.
Bemerkenswert an dem Paper sind zwei Aspekte:

 

  1. Das KI-basierte Diagnosetool erkennt Brustkrebs in britischen Mammogrammen sicherer als Radiologen. Die Falsch-Positiv-Rate der KI lag 5,7% und die Falsch-Negativ-Rate 9,4% unter der Trefferquote der Ärzte.

 

  1. Das System wurde ausschließlich auf britischen Daten trainiert, weist aber selbst bei komplett unbekannten US-amerikanischen Daten eine höhere Treffsicherheit auf als die Radiologen. Im Vergleich zu erfahrenen Radiologen gab es mit dem KI-System zwischen 1,2 weniger Falsch-Positive und 9,4 bzw. 2,7% weniger Falsch-Negative Testergebnisse in dem britischen bzw. amerikanischen Testdatensatz.

 

Diesem Problem wurde mit einer wohlüberlegten Datenauswahl begegnet. Trainingsbeispiele sollten qualitativ hochwertig und repräsentativ sein. Das bedeutet, dass alle relevanten Parameter wie Alter der Patienten, Schweregrad der Erkrankung, Aufnahmemodus, Aufnahmegerät usw. in ausreichender Art in den Daten abgedeckt sein müssen.

Im Fall des aktuellen Google Health Papers wurden zum Training Daten des nationalen britischen Brustkrebsscreenings verwendet, die histologisch abgesichert waren. Der britische Mammogramm-Datensatz spiegelt die landesweite Screening-Population in Bezug auf das Alter und die Cancer-Prävalenz wider und wurde in einer Vielzahl verschiedener medizinischer Einrichtungen in der dortigen Infrastruktur generiert. Man kann also wahrscheinlich von einem qualitativ hochwertigen und repräsentativen Datensatz sprechen.

Das darauf trainierte Modell hat auch auf dem deutlich homogeneren US-Datensatz eine gute Performanz. Die amerikanischen Daten stammen aus einem einzigen Screening-Center und die überwiegende Mehrheit der verwendeten Bilder wurde auf Geräten des gleichen Herstellers aufgenommen. Es ist davon auszugehen, dass die Daten innerhalb der Varianz der britischen Trainingsdaten lag und daher auch auf diesen anwendbar war.

Beide Aspekte des Nature Papers bestärken auch uns in unserer Arbeit mit ProstateCarcinoma.ai. Wir können die Bedeutung eines repräsentativen und qualitativ hochwertigen Trainingsdatensatzes nicht genug betonen.

Daher raten wir allen, die über ein Deep Learning Projekt nachdenken, sich schon in der Projektanbahnung speziell zum Thema Datenauswahl ausreichend Gedanken zu machen und eine Datensammelstrategie zu entwickeln. Denn nur wenn bei der Datenauswahl auf eine Abdeckung der möglichen Varianzen geachtet wurde, kann ein System auch in unbekannten Fällen einen klinische Nutzen aufweisen.

 

Quelle