2. Mai 2023
Algorithmen für kleinere große Sprachmodelle
Große Sprachmodelle ohne Genauigkeitsverluste auf Laptops
ChatGPT hat die Welt im Sturm erobert. Seine enorme Größe führt jedoch zu extrem hohen Rechen- und Speicherkosten, die das Speichern, Trainieren oder Ausführen einer eigenen Version für die meisten Menschen unmöglich machen. Nun hat die Alistarh Gruppe am Institute of Science and Technology Austria (ISTA) zwei Algorithmen entwickelt, welche diese Kosten drastisch senken, ohne die Genauigkeit der Modelle zu beeinträchtigen, sodass Einzelpersonen und kleinere Unternehmen diese Modelle einfacher nutzen können.
Größe scheint der Schlüssel zu sein, wenn es um große Sprachmodelle (large language models) geht. Das sind riesige computergestützte neuronale Netze, die auf große Textmengen trainiert werden. Das Modell hinter ChatGPT, der am schnellsten wachsenden Anwendung aller Zeiten, rechnet beispielsweise mit 175 Milliarden Zahlen, auch „Gewichte“ genannt, die in einem komplexen Netzwerk miteinander verknüpft sind, um zu seinen Ergebnissen zu gelangen. Im Gegensatz zu kleineren Versionen verfügen diese große Modelle über erstaunliche Sprachfähigkeiten und zeigen darüber hinaus überraschende „emergente Verhaltensweisen“: Sie sind in der Lage, bestimmte Aufgaben zu bewältigen, für die sie nicht trainiert wurden, wie zum Beispiel Addition oder das Entschlüsseln von Wörtern mit verdrehten Buchstaben.
Die enorme Größe dieser neuronalen Netze bedeutet jedoch auch, dass die meisten Nutzer:innen – Einzelpersonen und Unternehmen gleichermaßen – nicht einmal in der Lage sind, sie zu speichern. Bisherige Versuche, dieses Problem zu lösen, konzentrieren sich hauptsächlich auf Methoden zum Trimmen oder Quantisieren des Netzwerks, welche zwar skalierbar, aber nicht sehr genau sind. Jetzt haben der Doktorand Elias Frantar und Professor Dan Alistarh hocheffiziente Algorithmen in beiden Bereichen entwickelt, die kaum zu Einbußen bei der Genauigkeit führen.
Trimmen
Beim Trimmen des Netzwerks versuchen Algorithmen, unnötige Gewichte aus den Netzwerken großer Sprachmodelle zu entfernen. Bisherige Algorithmen in diesem Bereich waren entweder zu ressourcenintensiv für den Einsatz in großen Netzwerken oder erforderten erneutes umfangreiches Training des Netzwerks, was ihren Wert in der Praxis einschränkte. Als im Sommer 2022 mehrere große Sprachmodelle öffentlich zugänglich gemacht wurden, wollten Frantar und Alistarh ihre Ideen daher unbedingt ausprobieren. Nach nur wenigen Monaten Arbeit hatte Frantar einen Geistesblitz: „Die Schlüsselidee war, einige der Gewichte in bestimmten Mustern einzufrieren. Auf diese Weise konnten wir Informationen, die ressourcenintensiv zu berechnen sind, weitgehend wiederverwenden“, erklärt er. Auf diese Weise schuf das Team SparseGPT, die erste präzise One-Shot-Trimmmethode, die bei Modellen mit 10 Milliarden bis über 100 Milliarden Gewichten effizient funktioniert. Ihre Arbeit wird im Juli auf der International Conference on Machine Learning (ICML 2023) vorgestellt.
In weniger als viereinhalb Stunden kann ihr Algorithmus bis zu 60 Prozent der Gewichte mit minimalem Genauigkeitsverlust entfernen – und das, ohne das Netzwerk neu trainieren zu müssen. „Überraschenderweise zeigt unser Algorithmus, dass erhebliche Teile dieser Modelle überflüssig sind“, fügt Alistarh hinzu. Entscheidend für den Erfolg des Teams war die Nutzung der ISTA Scientific Computing Facility, die einen Computer-Cluster zum Speichern der öffentlich zugänglichen Modelle und zum Testen von Algorithmen sowie regelmäßige technische Unterstützung zur Verfügung stellte.
Komprimierung durch Quantisierung
Bei der zweiten Methode, der Quantisierung, wird die Anzahl der verschiedenen Zahlenwerte, die jedes Gewicht annehmen kann, reduziert, was wiederum eine Komprimierung des Modells ermöglicht. Frühere Algorithmen dieser Art waren jedoch durch die Größe und Komplexität der Modelle begrenzt. Gemeinsam mit ihren Kolleg:innen an der ETH Zürich entwickelten Alistarh und Frantar einen hochpräzisen und effizienten One-Shot-Algorithmus dafür namens OPTQ.
Diese neue Methode kann große Sprachmodelle mit 175 Milliarden Gewichten in nur vier Stunden quantisieren. „Frühere Methoden“, erklärt Frantar, „wurden für Modelle entwickelt, die tausendmal kleiner sind, und es wäre schwierig, sie auf größere Modelle anzuwenden.“ Darüber hinaus komprimiert die neue Methode die Daten mehr als doppelt so stark wie die früheren One-Shot-Methoden. „In der Praxis bedeutet dies, dass es jetzt möglich ist, ein Modell mit 175 Milliarden Gewichten mit einer einzigen Grafikkarte zu verwenden“, fügt Alistarh hinzu. Diese Ergebnisse werden diese Woche auf der International Conference on Learning Representations (ICLR 2023) vorgestellt.
Demokratisierung großer Sprachmodelle
Während das Modell hinter ChatGPT Firmeneigentum bleibt, wurden andere große Sprachmodelle wie dieses offen verfügbar gemacht – und die Öffentlichkeit ist begierig, damit zu experimentieren. „Seit der Veröffentlichung wurden wir von zahlreichen Einzelpersonen und Unternehmen auf unsere Arbeit angesprochen“, sagt Frantar. „Wir hoffen, dass unsere Arbeit weitere Forschung in diesem Bereich anregt und ein weiterer Schritt sein kann, um diese Modelle einem breiteren Publikum zugänglich zu machen.“