GPT-4o (omini)

Podacst anhören

Am 13. Mai hat OpenAI sein neues Sprachmodel GPT-4o vorgestellt. Dabei steht 4o für 4Omni und hat schon im Manen den ersten Hinweis auf die Mulitmodaslität dieses Modells. In diesem Artikel möchte ich dir darstellen, was GPT-4omni ist, was es kann, welche Unterschiede es zu GPT-4 gibt und was relevante Anwendungsfälle für GPT-4o sind:

Hintergrund: Was ist GPT-4o(omni)?
Features: Was kann GPT-4o(omni) im Detail?
Unterschiede: Was unterscheidet GPT-4o(omni) von GPT-4
Use-Cases: Interessante neue Anwendungen für GPT-4o (omni)
Ressourcen: Relevante Ressourcen zu GPT-4o(omni)

Was ist GPT-4o?

Im Mai 2024 hat OpenAI die neue Version ChatGPT-4o gelauncht. Das „o“ steht dabei für „omni“ und soll die Bandbreite darstellen, welche das neue Modell bietet. ChatGPT-4o (der Einfachheit halber sprechen wir im Folgenden von „4o“) ist damit das neuste multimodale Model. Eines der großen Ziel von 4o ist das es Interaktionen zwischen Mensch und Maschine natürlicher machen soll. Sprachein- und Ausgabe? Das konnte ChatGPT doch auch vorher? Richtig, aber 4o ist deutlich schneller und effizienter in der Verarbeitung, besonders von Bild und Ton.

Zum Vergleich:

GPT-3.5 hat eine durchschnittliche Latenzzeit von 2,8 Sekunden
GPT-4 sogar von 5,4 Sekunden.
4o kommt auf lediglich 320 Millisekunden, was in etwa der Reaktionszeit in einer Unterhaltung zwischen zwei Personen entspricht.

GPT4-Omni ist schnell

Aber auch in der normalen Anwendung bei der Erstellung von Text ist GPT4-omni unglaublich schnell. Wer das überprüfen möchte braucht einen Zugang zum OpenAI-Playground. Du wechselt dort in den Reiter Compare und wählst die verschiedenen Sprachmodelle aus. ich habe hier einen Prompt getestet. Man sieht hier wie viel schneller das neue Sprachmodelle schon im „Standardbetrieb“ ist. Und das neue Modell ist zusätzlich kostenlos

GPT-4o kann sehen, hören und sprechen, (fast) wie ein Mensch

Was bedeutet das konkret? Die große Vision von AI ist, das wir ganz natürlich ohne zu lange Verzögerungen (Latenz) mit den Sprachmodellen interagieren können. Dafür mit entscheidend ist, wie leistungsfähig der Prozess zwischen Spracheingabe und Sprachausgabe ist. In einem alten Prozess, musste die Sprache erst in in einen transkribierten Text übersetzt werden bevor er das an das Sprachmodell übergeben werden konnte. Seit September 2023 hat dann OpenAI seine Fähigkeiten erweitert. ChatGPT konnte dann sehen, hören und sprechen. Dieses Fähigkeiten haben sich jetzt mit der neuen GPT-4Omni noch einmal signifikant verändert. Mit GPT-4o hat OpenAI ein Modell trainiert, das alle Eingaben und Ausgaben von demselben neuronalen Netzwerk verarbeiten lässt. Das fühlt sich dann, als ob du mit einem Menschen redest. Zur besseren Veranschaulichung hier einmal eine Grafik um die Multimodalität besser darzustellen

Zusätzlich kann GPT-4omni Tonfälle wahrnehmen und verstehen und auch selber verschiedene Tonalitäten, Lachen oder Emotionen ausgeben. GPT-4omni spricht mehrere Sprachen und kann sogar singen. Sieh auch hier in diesem Video (ich habe die genaue Stelle des Videos verlinkt)

Was sind die Highlights der neuen Version?

Die Schnelligkeit der Eingabe und Ausgabe
Eine neue Desktop-Anwendung zur Ausführung von ChatGPT
Die Mulitmodalität
GPT-4Omni ist kostenlos und du kannst inzwischen in der kostenlose Variante auch den CustomGPT Store nützen

Entwicklungsgeschichte der GPT-Modelle

Um die Bedeutung von GPT-4o besser zu verstehen, lohnt es sich, einen kurzen Blick auf die Entwicklung der GPT-Modelle zu werfen.

GPT-1: GPT-1 wurde im Juni 2018 eingeführt und hatte 117 Millionen Parameter.
GPT-2: GPT-2, veröffentlicht im Februar 2019, hatte 1,5 Milliarden Parameter und zeigte signifikante Verbesserungen.
GPT-3: GPT-3 wurde im Juni 2020 mit 175 Milliarden Parametern veröffentlicht. Es konnte umfassendere Aufgaben bearbeiten und menschenähnliche Antworten generieren.
ChatGPT (GPT-3.5): ChatGPT wurde am 30. November 2022 basierend auf GPT-3 veröffentlicht und registrierte innerhalb von fünf Tagen eine Million Nutzer.
GPT-4: GPT-4 wurde am 14. März 2023 veröffentlicht und ermöglichte unter anderem die Bildeingabe und erweiterte Analysefähigkeiten.
GPT-4o: GPT-4o wurde Mitte Mai 2024 eingeführt und bietet ein fast menschliche Interaktion mit Multimodalität und sehr niedrigen Latenzzeiten

Unterschiede zwischen GPT-4omni und GPT-4

Im folgenden findest du die Unterschiede zwischen den Modellen, GPT-4, GPT-4 Turbo und GPT-4omni, basierend auf den gleich folgenden URLs

Aspekt	GPT-4	GPT-4 Turbo	GPT-4o
Fähigkeiten	Textverarbeitung	Textverarbeitung	Multimodal
Geschwindigkeit	5,4 Sekunden durchschnittlich im „Voice Mode“	5,4 Sekunden durchschnittlich im Voice Mode	durchschnittlich 320ms Latenz im „Voice Mode“
Kontextfenster	Bis zu 8.000 Token	Bis zu 128.000 Token	Bis zu 128.000 Token
Multimodalität	Primär Text	Primär Text	Text, Bild, Audio

Kosten Input (API)	$10/1 Million Tokens	$10/1 Million Tokens	$5/1 Million Tokens
Kosten-Output (API)	$30/1 Million Tokens	$30/1 Million Tokens	$15/1 Million Tokens
Trainingsdaten	Daten bis Dec 2023	Daten bis Dec 2023	Daten bis Oct 2023

GPT-40-Omni Was sind Anwendungsfälle?

Noch ist bei vielen die neue Version nicht verfügbar

Echtzeit-Übersetzung

GPT-4o kann auf Basis seiner extrem geringen Latenz Echtzeit-Übersetzungen zwischen verschiedenen Sprachen darstellen. In diesem Video zeigen die Entwickler wie GPT-4o von Englisch -> Italienisch -> Italienisch -> Englisch übersetzt. Ich habe hier wieder die genau Sequenz im Video als Link hinterlegt

Meeting-AI

Auch in Teams und in Zoom gibt es Möglichkeiten Zusammenfassungen von Meeting zu erstellen. Durch den einfachen Prozess, aber kann GPT4-Omni über die Desktop-Applikation initiiert werden und zuhören. Deswegen der Tipp ladet Euch ChatGPT als Desktop-Applikation herunter -> Dazu geht Ihr auf Euer Konto -> dort wo die Einstellungen sind und könnt euch ChatGPT herunterladen. Wenn Ihr dann ein Meeting habt aktiviert ihr über das Kopfhörer-Symbol ChatGPT

Customer Service auf ein neues Level heben
Mit ChatGPT-4o ist es denkbar, Customer Support in Echtzeit anzubieten – zu jeder Tages- und Nachtzeit. Richtig trainiert, kann das Modell Fragen deiner Kundinnen und Kunden z. B. über Voice Chat beantworten. Für Kundinnen und Kunden kann sich das wie ein Gespräch mit einer echten Person anfühlen. Der Vorteil dabei ist, dass du den Customer Service damit auch außerhalb der Geschäftszeiten anbieten und deiner Kundschaft damit bei Problemen schneller helfen kannst.

Assistenz beim Codieren
Entwicklerinnen und Entwickler können GPT-4o nutzen, um in Echtzeit Feedback und Unterstützung beim Codieren zu erhalten. So können Fehler direkt entdeckt und behoben werden, was Zeit spart und die Effizienz steigert.

Teilnahme am Brainstorming
In Brainstormings kann ChatGPT-4o dein Team als regulärer Teilnehmer unterstützen. Die KI kann helfen, neue Blickwinkel auf Dinge zu erlangen und vielleicht sogar den einen oder anderen hilfreichen Input liefern. Wichtig ist hier das Setup: Die KI muss alle Teilnehmenden sowie ggf. Whiteboards oder Flipcharts gut sichtbar scannen können.

Datenanayse direkt aus Google Drive und Microsoft OneDrive
Eine weitere Neuerung, die dir dein Dasein als Online Marketeer maßgeblich erleichtern kann, ist die neue Funktion für die Datenanalyse. ChatGPT-4o erlaubt das Verknüpfen von Dateien aus dem Google Drive (Google Sheets, Docs und Drive) oder dem Microsoft OneDrive, ohne dass du die Daten zunächst auf deinen Rechner herunterladen und in ChatGPT wieder hochladen musst. Nun werden die Daten analysiert. ChatGPT-4o nutzt Python Code, um verschiedene Aufgaben (z. B. Zusammenführen und Bereinigen von großen Datenmengen und Erstellen von Diagrammen) auszuführen. Anschließend kann GPT-4o die Daten auslesen und analysieren. Du hast die Möglichkeit, ChatGPT-4o direkt in der Tabelle Fragen zu den Daten zu stellen oder einen von verschiedenen vorgefertigten Promts auswählen, die zu deinen Daten erstellt wurden. Darstellungen wie Zeilen, Spalten, Kreis- und Chatter-Plot-Diagramme lassen sich direkt im Chatfenster bearbeiten.

Die letzten 10 Podasts von 121Watt

06.06.2024 - GPT-4o (omini)
14.03.2024 - Parameter wie Temperature und Top-P in LLMs
19.02.2024 - CustomGPT-Avian
21.11.2023 - Die 9 besten Custom GPTs 2023
08.11.2023 - Custom GPTs – Eigene GPTs mit ChatGPT erstellen
12.10.2023 - 5 wichtige Prompt-Patterns im Prompt Engineering
11.09.2023 - Advanced Data Analysis (Code-Interpreter) ChatGPT – 11 coole Anwendungen
21.07.2023 - Custom Instructions von ChatGPT
14.07.2023 - Der ChatGPT Code-Interpreter – alles zum Hintergrund und Anwendungen
27.06.2023 - VoxScript ChatGPT-Plugin: Features & Beispielprompts

Alle Podcasts auflisten