
KI in der kieferorthopädischen Diagnostik
Kann eine Künstliche Intelligenz Malokklusionen zuverlässig diagnostizieren?
Immer mehr Bereiche in der Diagnostik werden von KI unterstützt – die Ergebnisse sind größtenteils vielversprechend, die Tendenz geht dahin, dass künstliche Intelligenz die klinische Diagnostik durch Ärztinnen und Ärzte maßgeblich verändern, wenn nicht sogar ersetzen wird. Doch ist die Bewertung durch eine KI immer so zuverlässig und vor allem korrekt, wie viele das glauben möchten? Kevin O’Brien, Professor Emeritus für Kieferorthopädie an der University of Manchester, UK, hat sich intensiver mit diesem Thema beschäftigt. Seine Ergebnisse hat unsere Redaktion in diesem Beitrag zusammengefasst.
Ein vielversprechender Einsatzbereich im Bereich der Kieferorthopädie ist die automatisierte Diagnostik von Malokklusionen. Die Idee dahinter: KI-gestützte Analysen könnten künftig klinische Entscheidungen unterstützen, die Diagnosesicherheit erhöhen und Zeit in der Erstbeurteilung einsparen. Eine aktuelle, frei zugängliche Studie, veröffentlicht im American Journal of Orthodontics and Dentofacial Orthopedics (AJODO), untersuchte, wie zuverlässig die KI-Software SmileMate anhand intraoraler Fotografien kieferorthopädische Befunde erfasst – und wie stark ihre Ergebnisse mit der Einschätzung durch erfahrene Kliniker übereinstimmen. Beantwortet werden soll
hier die Frage, wie weit die KI bereits ist und was sie als Werkzeug leisten kann.
Studiendesign und Zielsetzung
Das internationale Forscherteam aus London (UK) und Damaskus (Syrien) bestehend aus Matthew Vaughan, Samer Mheissen, Martyn Cobourne und Farooq Ahmed, formulierten für ihre Studie folgende zentrale Fragestellung: „Evaluiere die Genauigkeit der KI-Bewertung (SmileMate) anhand dentaler- und okklusaler Parameter bei standardisierten klinischen Fotografien im Vergleich zur Beurteilung durch einen klinischen Experten“ (Im Original: „Evaluate the accuracy of the AI assessment (SmileMate) of dental and occlusal parameters using standardised clinical photography compared with a clinical assessment”).
Um diese Fragestellung zu beantworten, führte das Studienteam eine prospektive klinische Studie durch. Folgende Eckpunkte bildeten die Grundlage für die Untersuchung:
Stichprobe: 31 Teilnehmende (angehende Zahnärztinnen und Zahnärzte und kieferorthopädische Weiterbildungsassistentinnen und
Weiterbildungsassistenten, ermittelt in einer beispielhaften Kalkulation der Fallzahlen.
Datenerhebung: Anfertigung standardisierter intraoraler Farbfotografien (frontal, bukkal rechts/links, okklusal maxillär/mandibulär).
Klinische Referenz: Eine erfahrene Fachperson führte am gleichen Termin eine direkte klinische Beurteilung mithilfe eines standardisierten Templates durch.
KI-Analyse: Die Bilddaten wurden in das SmileMate-System eingespeist, das automatisiert eine Diagnostik vornahm.
Zuverlässigkeit: Eine zweite Person analysierte vier Fälle erneut zur Prüfung der Reproduzierbarkeit.
Statistische Auswertung: Neben deskriptiven Statistiken kamen Kappa-Werte, Sensitivitäts- und Spezifitätsanalysen sowie ROC-Kurven zum Einsatz, um die übergreifende Genauigkeit der künstlichen Intelligenz zu bewerten.
Die Erfassung von Sensitivität und Spezifizität sind besonders relevant, da sie die Genauigkeit des Tests beschreiben. Dies geschieht, indem sie die Anwesenheit bzw. Abwesenheit eines Krankheitsbildes anzeigen. Sensitivität zeigt, wie gut eine Methode tatsächliche Befunde erkennt (z. B. tatsächliches Vorliegen von Karies oder Engständen). Spezifität hingegen beschreibt die Wahrscheinlichkeit, mit der ein Krankheitsbild als korrekt nicht vorhanden erkannt wird. Es geht dabei also darum, wie zuverlässig das Fehlen eines Befunds identifizierbar
ist.
In einer idealen Testsituation sollte eine hohe Sensitivität bzw. Spezifität vorliegen. Wie jedoch häufig der Fall, gibt es starke Kontroversen, wenn es um die Interpretation dieser Bewertungskriterien geht. Dies sollte man im Hinterkopf behalten.
Ergebnisse der Untersuchung
Die Auswertung zeigte teils deutliche Diskrepanzenzwischen KI-Analyse und klinischer Einschätzung. Signifikante Abweichungen gab es insbesondere bei den folgenden Parametern:
- maxilläre Engstände
- Overbite
- Mundhygiene
- Gingivitis
- Rezessionen
- Karies
- Zahnhartsubstanzfrakturen
- Zahnabrasionen
- Zahnaufhellungsbedarf
Keine signifikanten Unterschiede waren indiziert bei:
- lateral Offener Biss
- Zapfenzähne
- fehlende oder persistierende Zähne
- Overjet
- Zahnzwischenräume (OK und UK)
- Kreuzbiss
Sensitivität (richtig-positive Rate): 72 %
Spezifität (richtig-negative Rate): 54 %
Basierend auf diesen Ergebnissen kamen die Autoren zu dem Schluss, dass die übergeordnete Genauigkeit der Auswertungen insgesamt sehr hoch war: „There was a large range of accuracy, agreement, sensitivity and specificity“.
Zusammenfassend gibt es beim Ergebnis jedoch signifikant zu berücksichtigende Einschränkungen:
„The overall agreement of the AI to a clinician was fair. The overall sensitivity was 72% and specificity was 54%. AI-generated assessments are inadequate for evaluating malocclusion”.
Dazu ein konkretes Beispiel aus der Studie: Die Spezifität bei maxillären Engständen betrug nur 15 %. Das bedeutet, dass 85 % der Patienten fälschlich als betroffen eingestuft wurden – mit potenziell überflüssiger Diagnostik oder Therapie als Folge.
Kritische Bewertung und Limitationen
Die Studie ist ein wertvoller Beitrag zur aktuellen KI-Forschung im dentofazialen Bereich. Dennoch gibt es Besonderheiten, die man berücksichtigen muss:
- Geringe Fall-/Teilnehmerzahl: Klinische Einzelbewertung: Das klinische Urteil basierte auf einer relativ kleinen Stichprobe und wenigen klinisch bewertenden Personen. Daher ist die Generalisierbarkeit nicht unbedingt gegeben, was die Aussagekraft insgesamt begrenzt.
- Modellabhängigkeit: SmileMate ist ein spezifisches System; Aussagen sind aller Wahrscheinlichkeit nach nicht unmittelbar auf andere KI-Anwendungen übertragbar.
Trotz dieser Punkte zeigt die Arbeit eindrucksvoll, dass bestimmte diagnostische Aspekte bereits mit akzeptabler Genauigkeit erfasst werden können – andere jedoch (z. B. Engstände oder Rezessionen) derzeit noch zu fehleranfällig sind.
Klinische Relevanz und Ausblick
Die Studienergebnisse lassen vermuten, dass KI-gestützte Diagnostik zurzeit keine eigenständige Entscheidungsgrundlage darstellen sollte. Sie kann unterstützend wirken – vorausgesetzt, es erfolgt stets eine klinische Verifizierung durch erfahrenes Fachpersonal.
Ein besonders relevanter Punkt ist der Einsatz solcher Systeme im sogenannten Direct-to-Consumer-Kontext: Werden KI-basierte Diagnosen ohne zahnärztliche Kontrolle an Patientinnen und Patienten weitergegeben, besteht das Risiko von Fehl- oder Überbehandlungen. In anderen medizinischen Bereichen gehören Selbsttests bereits zum üblichen Duktus, beispielsweise bei der Bestimmung von prostataspezifischen Antigenen. Viele KI-basierte Tests sind aufgrund der oft sehr niedrigen Spezifität jedoch mit Vorsicht zu genießen. Im genannten Beispiel der Diagnostik beim Prostata-Selbsttest kann eine niedrige Spezifität bedeuten, dass viele Männer mit dieser Krebsart identifiziert werden, obwohl keine Erkrankung vorliegt. Aus diesem Grund sind diese Tests, gemäß den Angaben des Autors, beispielsweise in Großbritannien nicht zugelassen.
Dennoch: Die langfristige Integration von KI in die kieferorthopädische Diagnostik ist realistisch – vorausgesetzt, die Systeme werden weiterentwickelt, kalibriert und validiert. Forschung wie die vorliegende ist essenziell, um Potenziale zu erkennen und Limitationen gezielt zu adressieren.
Fazit
KI-Systeme wie SmileMate zeigen bereits Ansätze diagnostischer Leistungsfähigkeit in der Kieferorthopädie. Doch die derzeitige Genauigkeit reicht nicht aus, um klinische Untersuchungen zu ersetzen. In der aktuellen Form ist der Einsatz nur unter professioneller Supervision sinnvoll. Die Zukunft verspricht Fortschritte – bis dahin bleibt der klinische Blick unersetzbar.
Den vollständigen Artikel im Original finden Sie hier: Can artificial intelligence diagnose malocclusion? – Kevin O’Brien’s Orthodontic Blog