Anzeige
Informatik

ChatGPT kann auch Wissenschaft

Vom Chatbot erstellte Fachartikel-Abstracts täuschen selbst erfahrene Gutachter

ChatGPT
Der Textgenerator ChatGPT kann täuschend echte wissenschaftliche Abstracts verfassen. © Wanan Yossingkum/ Getty images

Täuschend echt: Das KI-System ChatGPT kann nicht nur Texte aller Art verfassen – selbst in der Wissenschaft ist der Textgenerator bedenklich überzeugend: Von ihm verfasste Zusammenfassungen echter wissenschaftlicher Fachartikel wurden von menschlichen Gutachtern nur zum Teil als KI-generiert entlarvt. Immerhin 32 Prozent der von ChatGPT erstellten Abstracts ging bei ihnen als echt durch, wie ein Test ergab. Gängige Software zur Plagiatserkennung stufte sogar alle seine Abstracts als echt ein.

Dank neuronaler Netzwerke und selbstlernenden Algorithmen hat die künstliche Intelligenz enorme Fortschritte gemacht – selbst in vermeintlich menschlichen Domänen: Sie meistert Strategiespiele und Diplomatie, knackt Proteinstrukturen oder schreibt Computerprogramme. Auch Spracherkennung und Sprachausgabe sind inzwischen so weit entwickelt, dass KI-Systeme Gespräche führen und eigenständig Texte verfassen können.

Medizinforschung
Kann ChatGPT auch erfahrene Gutachter medizinischer Fachpublikationen täuschen? © danisacch/ Getty images

ChatGPT: Von Gedicht bis Fachaufsatz

Ein KI-System sorgt dabei seit Ende 2022 für besonderes Aufsehen: ChatGPT. Dieser vom US-Unternehmen OpenAI entwickelte Chatbot basiert auf einem der bisher leistungsstärksten Algorithmen zur Textverwertung und -ausgabe. Dieses befähigt ihn, auf Fragen zu antworten und dabei den Stil seiner Textausgabe an beliebige literarische oder journalistische Stile anzupassen – von einem Shakespearesonett über einen Essay bis hin zur trockenen Börsenanalyse.

„Als ich las, dass ChatGPT alles vom Sonett bis zum Schulaufsatz schreiben kann, fragte ich mich, ob dies auch für wissenschaftliche Abstracts gilt“, sagt Catherine Gao von der Northwestern University. Abstracts sind die Kurzzusammenfassungen, die am Beginn jedes wissenschaftlichen Fachartikels die wesentlichen Inhalte zusammenfassen. Sie sind fester Bestandteil der Publikationen und als Orientierung vor allem bei nicht frei zugänglichen Fachartikeln wichtig.

Als ersten Test beauftragte Cao den berühmte Chatbot damit, den Abstract für eine hypothetische Studie zu Lungenentzündungen in Intensivstationen zu schreiben. „Er erstellte mir dazu einen erschreckend guten Abstract“, erinnert sich die Forscherin.

Anzeige

50 medizinische Abstracts als Testaufgabe

Doch war dies nur ein Zufallstreffer – oder ist ChatGPT wirklich so gut? Um das herauszufinden, baten Gao und ihre Kollegen das KI-System, die Zusammenfassungen für 50 echte Fachartikel zu schreiben, die in fünf renommierten medizinischen Fachjournalen – Nature Medicine, Lancet, JAMA, NEJM und BMJ – erschienen waren. ChatGPT erhielt dafür als Information jeweils nur den Titel und das Journal. „Unsere in das System eingegebene Aufgabenstellung war: Bitte schreibe einen wissenschaftlichen Abstract für den Artikel mit Titel () im Stil des Fachjournals ()“, erklären die Forschenden.

Die von ChatGPT geschriebenen Abstracts unterzogen sie daraufhin Analysen durch eine gängige Software zur Plagiatserkennung, durch ein weiteres KI-System sowie durch menschliche Gutachter in Form von erfahrenen Medizinern. Letzter erhielten jeweils eine Mischung aus echten und von ChatGPT erstellten Abstracts und sollte herausfinden, welche von der KI stammten. „Unseres Wissens nach ist dies die erste Studie, die das neue ChatGPT-Modell daraufhin bewertet, ob es überzeugende medizinische Abstracts schreiben kann“, so Gao und ihr Team.

Ein Drittel ging als echt durch

Das Ergebnis: Die Plagiats-Software ließ sich komplett täuschen und stufte 100 Prozent der vom ChatBot erstellten Zusammenfassungen als Originalarbeiten ein. Besser schnitt der KI-Detektor ab: Er erkannte 66 Prozent der Chatbot-Texte als computergeneriert – rund ein Drittel entging ihm jedoch. Nicht viel besser sah es bei den menschlichen Gutachtern aus: Sie identifizierten zwar 68 Prozent der von ChatGPT erstellten Abstracts korrekt als vom Chatbot stammend. Doch 32 Prozent der KI-generierten Texte werteten sie als von echten Wissenschaftlern erstellt.

„Dabei wussten unsere Gutachter, dass einige der Abstracts gefälscht waren, so dass sie von vornherein misstrauisch waren“, sagt Gao. „Die Tatsache, dass sie trotzdem 32 Prozent der ChatGPT-Texte nicht erkannten, zeigt, wie gut sie sind.“ Bei 14 Prozent der Abstracts irrten die Gutachter sogar in umgekehrter Richtung: Sie stuften echte Zusammenfassungen fälschlich als computergeneriert ein. „Unsere Gutachter kommentierten, dass es ihnen überraschend schwerfiel, zwischen echten und gefälschten Abstracts zu unterschieden“, so Gao.

Warum ChatGPT überzeugte

Das zeigt: Dank seines Trainings an Milliarden verschiedenen Texten kann ChatGPT sogar wissenschaftliche Expertise überzeugend vortäuschen. Dem KI-System gelang es bei den Texten nicht nur, die typische wissenschaftliche Diktion nachzuahmen, auch inhaltlich waren die Abstracts erstaunlich überzeugend. Seine Zusammenfassungen waren häufiger detailreicher als die echten, der Chatbot fügte sogar fiktive Kennnummern für die klinische Studie ein.

„ChatGPT wusste sogar, wie groß die von ihm erfundene Patientenkohorte bei den verschiedenen Themen sein musste“, sagt Gao. So wusste das System, dass Studien zu häufigen Phänomen wie Bluthochdruck typischerweise Daten von tausenden bis zehntausenden Teilnehmern umfassen. Bei eher seltenen Phänomenen wie einer Affenpocken-Infektion sind es dagegen schon aus Mangel an Fällen viel weniger.

„Grund zur Sorge“

Nach Ansicht der Forschenden sind solche KI-Systeme damit Grund zur Besorgnis. „Angesichts seiner Fähigkeit, Abstracts mit glaubhaften Daten zu erzeugen, könnte es dafür genutzt werden, um Publikationen zu fälschen“, erklären sie. Sollten ChatGPT und andere Textgeneratoren auch die restliche Publikation überzeugend fälschen können, könnten Gutachter und andere Wissenschaftler getäuscht und ihre eigene Arbeit in die falsche Richtung gelenkt werden.

Ähnlich sieht es auch Sandra Wachter von der Oxford University, die zur Regulation von Wissenschaft und Technologie forscht. Sie kommentiert in „Nature News“: „Wenn wir jetzt in einer Situation sind, in der selbst Experten nicht mehr unterscheiden können, was wahr ist und was nicht, verlieren wir die Mittelsmänner, die uns durch komplexe Themen leiten sollen.“ Die beim wissenschaftlichen Publizieren übliche Peer-Review könnte dadurch ausgehebelt werden.

Wo liegt die Grenze?

Gao und ihre Kollegen sehen diese Gefahr ebenfalls. Sie schlagen daher vor, künftig zusätzlich zu den menschlichen Gutachtern auch entsprechend trainierte KI-Systeme zur Bewertung eingereichter Fachartikel einzusetzen. „Der von uns getestete KI-Output-Detektor war recht gut darin, ChatGPTs Texte zu erkennen. Er könnte daher ergänzend in den Screening-Prozess bei Fachjournalen integriert werden“, erklärt Gao.

Gleichzeitig sehen die Forschenden im Einsatz solcher Textgeneratoren aber auch Chancen. Sie könnte beispielsweise nicht englischsprachigen Wissenschaftlern dabei helfen, ihre Fachartikel zu formulieren. „Generative Textechnologie hat daher das Potenzial, die Wissenschaft zu demokratisieren“, so das Team. Allerdings müsse dann im eingereichten Paper klar angegeben sein, ob der Text mithilfe von ChatGPT oder einem anderen KI-System erstellt wurde. „Diese Technologie kann demnach auf ethische wie unethischer Weise genutzt werden“, sagt Gao. Die Schwierigkeit sei es nun, die Grenzen klar zu ziehen. (Preprint BioRxiv, 2022; doi: 10.1101/2022.12.23.521610)

Quelle: Northwestern University

Teilen:
Anzeige

In den Schlagzeilen

Diaschauen zum Thema

Dossiers zum Thema

Alan Turing - Genialer Computerpionier und tragischer Held

Killerroboter - Autonome Waffensysteme – wenn Computer über Leben und Tod entscheiden

News des Tages

Bücher zum Thema

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Top-Clicks der Woche