GPTKB - Massive Wissensextraktion aus dem GPT-Sprachmodell
Informatik / Digitales

GPTKB - Massive Wissensextraktion aus dem GPT-Sprachmodell

An welche Fakten glauben große Sprachmodelle? chatGPT und co. beindrucken in vielen Anwendungen, aber auf welchen Fakten basieren ihre Antworten? Im GPTKB-Projekt extrahieren und visualisieren Forschende massive Mengen von Fakten aus großen Sprachmodellen.
Beginn 20:00 Uhr
Ende 21:00 Uhr

Auf einen Blick

Technische Universität Dresden (TUD)
ScaDS.AI Dresden/Leipzig
Andreas-Pfitzmann-Bau
1020
Nöthnitzer Straße 46
01187 Dresden (Dresdner Süden)
Prof. Simon Razniewski, Yujia Hu,
Webseite YouTube LinkedIn

Beschreibung

Große Sprachmodelle (LLMs) haben Künstliche Intelligenz (KI) und die Verarbeitung natürlicher Sprache (NLP) stark vorangebracht. Neben ihrer Fähigkeit, viele verschiedene Aufgaben zu erledigen, liegt ihr großer Erfolg darin, dass sie eine Menge Faktenwissen besitzen. Seit Jahren interessieren sich Forschende immer dafür, wie viel diese Modelle wirklich „wissen“, doch bisherige Methoden arbeiten nur mit kleinen, vorausgewählten Daten, was zu einem „Verfügbarkeitsbias“ führt (Tversky und Kahneman), was bedeutet, dass Forschende oft nur das entdecken, was sie ohnehin schon erwartet haben – und möglicherweise vieles übersehen.

Um dieses Problem zu lösen, haben wir eine neue Methode entwickelt, mit der wir das Wissen eines LLMs systematisch und umfassend erfassen können. Dafür stellen wir ihm viele Fragen und fassen die Antworten intelligent zusammen.

Als Testlauf haben wir GPT-4o-mini genutzt, um GPTKB zu erstellen – eine riesige Wissenssammlung mit 101 Millionen Fakten über 2,9 Millionen Subjekte. Und das Beste: Wir haben das Ganze für nur 1 % der Kosten früherer Projekte geschafft!

GPTKB ist ein wesentlicher Fortschritt in zwei Bereichen: Erstens hilft es, besser zu verstehen, wie LLMs „denken“ und welche Fakten sie kennen. Zweitens zeigt es neue, effiziente Wege, um große Wissenssammlungen zu erstellen.

GPTKB ist online abrufbar: gptkb.org.

Information zum Veranstaltungsformat

Präsentation

Stationen

Münchner Platz

  • 3 (tram)

Helmholtzstraße

  • 85 (bus)
Einstellungen Barrierefreiheit