Aktenscreening via KI: Demenzvorsorge der Zukunft?
Viele kleine Details können in ihrer Gesamtheit auf eine Demenz hinweisen. Manche werden vielleicht auch bei Arztterminen in der Akte vermerkt. Eine KI könnte gezielt nach solchen Einträgen suchen und rechtzeitig Alarm schlagen.
Bei Alzheimer und verwandten Demenzerkrankungen kann eine frühe Diagnose die Prognose positiv beeinflussen. Im Rahmen einer US-amerikanischen Studie prüften Forschende, ob KI dabei helfen kann, Hinweise auf kognitive Einschränkungen im Alltag schneller zu erkennen. Dazu ließ man medizinische Aufzeichnungen gezielt von einer KI durchforsten. Gescreent wurden – in einer abgesicherten Umgebung – die Vermerke aus Patientenakten. Diese stammten aus den vier Jahren vor der Diagnose einer leichten kognitiven Beeinträchtigung.
Zwei Chatbots gingen auf Spurensuche
Zunächst entwickelten die Forschenden für die Sprachmodelle GPT-4 und LLaMA 2 genaue Anweisungen (Prompts) basierend auf 4949 Notizen zu 1969 Personen im Alter von mindestens 50 Jahren. Der Anteil an Frauen lag bei 53,3%, das Durchschnittsalter betrug 76,0 Jahre.
Um Hinweise auf einen Verfall zu finden, standen Schlüsselwörter mit Bezug zu kognitiven Funktionen (z. B. „vergessen”, „konfus, „Aufmerksamkeit”, „Wortfindungsprobleme“, „Erinnerung“) oder die Namen von Screening-Tests (u.a. Montreal, MMS) im Fokus. Die Sprachmodelle sollten im Gegensatz zu starr trainierten Algorithmen (DeepLerning, XGBoost) selbst neue Suchwörter entwickeln, Texthinweise für kognitiven Abbau identifizieren sowie ihre Ergebnisse und Herangehensweise evaluieren.
Als Testdaten dienten 1996 zufällig ausgewählte Aktenauszüge von 1161 Patientinnen und Patienten. GPT-4 zeigte im Vergleich zu LLaMA 2 eine höhere Genauigkeit und Effizienz, weil es z.B. Verneinungen und Kontext besser erkannte. Letztendlich schnitt es aber nicht besser ab als die speziell trainierten Algorithmen und erzeugte gelegentlich plausible, aber inkorrekte „Halluzinationen“.
Allerdings war jeder Algorithmus auf eigene Weise nicht perfekt. Die Forscher stellten fest, dass sich die Fehler zwischen GPT, XGBoost und DeepLearning kaum überschnitten. Sie kombinierten daher deren Vorhersagen und schufen ein signifikant effektiveres Ensemblemodell. Dieses erreichte einen positiven prädiktiven Wert von 90,2%, eine Sensitivität von 94,2% bei einer ausgeglichenen Gewichtung (F1-Score von 0,9).
Der bisherige Ansatz lässt sich so zwar noch nicht in die Praxis übertragen. Dennoch ist das Autorenteam der Überzeugung, dass die Chatbots durch ihre Flexibilität in Zukunft eine wichtige Ergänzung für spezifisch trainierte Algorithmen sind, um KI in den ärztlichen Alltag zu integrieren.
Weiterlesen