Alle 121Watt Bianca Baer Christian Kunz Christoph Röck Eva Schmuhalek Jens Fauldraht Long Liu Markus Hövener Search Engine Journal

06.06.2024 121Watt

Podcast: GPT-4o (omini)

GPT-4o (omini)

Podacst anhören

Am 13. Mai hat OpenAI sein neues Sprachmodel GPT-4o vorgestellt. Dabei steht 4o für 4Omni und hat schon im Manen den ersten Hinweis auf  die Mulitmodaslität dieses Modells. In diesem Artikel möchte ich dir darstellen, was GPT-4omni ist, was es kann, welche Unterschiede es zu GPT-4 gibt und was relevante Anwendungsfälle für GPT-4o sind:

Was ist GPT-4o?

Im Mai 2024 hat OpenAI die neue Version ChatGPT-4o gelauncht. Das „o“ steht dabei für „omni“ und soll die Bandbreite darstellen, welche das neue Modell bietet. ChatGPT-4o (der Einfachheit halber sprechen wir im Folgenden von „4o“) ist damit das neuste multimodale Model. Eines der großen Ziel von 4o ist das es Interaktionen zwischen Mensch und Maschine natürlicher machen soll. Sprachein- und Ausgabe? Das konnte ChatGPT doch auch vorher? Richtig, aber 4o ist deutlich schneller und effizienter in der Verarbeitung, besonders von Bild und Ton.

Zum Vergleich:

GPT4-Omni ist schnell

Aber auch in der normalen Anwendung bei der Erstellung von Text ist GPT4-omni unglaublich schnell. Wer das überprüfen möchte braucht einen Zugang zum OpenAI-Playground. Du wechselt dort in den Reiter Compare und wählst die verschiedenen Sprachmodelle aus. ich habe hier einen Prompt getestet. Man sieht hier wie viel schneller das neue Sprachmodelle schon im „Standardbetrieb“ ist. Und das neue Modell ist zusätzlich kostenlos

Geschwindigkeitstest zwischen dem alten und dem neuen GPT-4omni Modell

GPT-4o kann sehen, hören und sprechen, (fast) wie ein Mensch

Was bedeutet das konkret? Die große Vision von AI ist, das wir ganz natürlich ohne zu lange Verzögerungen (Latenz) mit den Sprachmodellen interagieren können. Dafür mit entscheidend ist, wie leistungsfähig der Prozess zwischen Spracheingabe und Sprachausgabe ist. In einem alten Prozess, musste die Sprache erst in in einen transkribierten Text übersetzt werden bevor er das an das Sprachmodell übergeben werden konnte. Seit September 2023 hat dann OpenAI seine Fähigkeiten erweitert. ChatGPT konnte  dann sehen, hören und sprechen. Dieses Fähigkeiten haben sich jetzt mit der neuen GPT-4Omni noch einmal signifikant verändert. Mit GPT-4o hat OpenAI ein Modell trainiert, das alle Eingaben und Ausgaben von demselben neuronalen Netzwerk verarbeiten lässt. Das fühlt sich dann, als ob du mit einem Menschen redest. Zur besseren Veranschaulichung hier einmal eine Grafik um die Multimodalität besser darzustellen

GPT-4Omni als multimodales Modell

Zusätzlich kann GPT-4omni  Tonfälle  wahrnehmen und verstehen und auch selber verschiedene Tonalitäten, Lachen oder Emotionen ausgeben. GPT-4omni spricht mehrere Sprachen und kann sogar singen. Sieh auch hier in diesem Video (ich habe die genaue Stelle des Videos verlinkt)

Was sind die Highlights der neuen Version?

Entwicklungsgeschichte der GPT-Modelle

Um die Bedeutung von GPT-4o besser zu verstehen, lohnt es sich, einen kurzen Blick auf die Entwicklung der GPT-Modelle zu werfen.

Unterschiede zwischen GPT-4omni und GPT-4

Im folgenden findest du die Unterschiede zwischen den Modellen, GPT-4, GPT-4 Turbo und GPT-4omni, basierend auf den gleich folgenden URLs

Aspekt GPT-4 GPT-4 Turbo GPT-4o
Fähigkeiten Textverarbeitung Textverarbeitung Multimodal
Geschwindigkeit 5,4 Sekunden durchschnittlich im „Voice Mode“ 5,4 Sekunden durchschnittlich im Voice Mode durchschnittlich 320ms Latenz im „Voice Mode“
Kontextfenster Bis zu 8.000 Token  Bis zu 128.000 Token  Bis zu 128.000 Token
Multimodalität Primär Text Primär Text Text, Bild, Audio
Kosten Input (API) $10/1 Million Tokens $10/1 Million Tokens $5/1 Million Tokens
Kosten-Output (API) $30/1 Million Tokens $30/1 Million Tokens $15/1 Million Tokens
Trainingsdaten Daten bis Dec 2023 Daten bis Dec 2023 Daten bis Oct 2023

 

GPT-40-Omni Was sind Anwendungsfälle?

Noch ist bei vielen die neue Version nicht verfügbar

Echtzeit-Übersetzung

GPT-4o kann auf Basis seiner extrem geringen Latenz Echtzeit-Übersetzungen zwischen verschiedenen Sprachen darstellen. In diesem Video zeigen die Entwickler wie GPT-4o von Englisch -> Italienisch -> Italienisch -> Englisch übersetzt. Ich habe hier wieder die genau Sequenz im Video als Link hinterlegt

Meeting-AI

Auch in Teams und in Zoom gibt es Möglichkeiten Zusammenfassungen von Meeting zu erstellen. Durch den einfachen Prozess, aber kann GPT4-Omni über die Desktop-Applikation initiiert werden und zuhören. Deswegen der Tipp ladet Euch ChatGPT als Desktop-Applikation herunter -> Dazu geht Ihr auf Euer Konto -> dort wo die Einstellungen sind und könnt euch ChatGPT herunterladen. Wenn Ihr dann ein Meeting habt aktiviert ihr über das Kopfhörer-Symbol ChatGPT

ChatGPT als Desktop-Applikation mit aktiviertem GPT-4omni für ein Meeting-Protokoll

Customer Service auf ein neues Level heben
Mit ChatGPT-4o ist es denkbar, Customer Support in Echtzeit anzubieten – zu jeder Tages- und Nachtzeit. Richtig trainiert, kann das Modell Fragen deiner Kundinnen und Kunden z. B. über Voice Chat beantworten. Für Kundinnen und Kunden kann sich das wie ein Gespräch mit einer echten Person anfühlen. Der Vorteil dabei ist, dass du den Customer Service damit auch außerhalb der Geschäftszeiten anbieten und deiner Kundschaft damit bei Problemen schneller helfen kannst.

Assistenz beim Codieren
Entwicklerinnen und Entwickler können GPT-4o nutzen, um in Echtzeit Feedback und Unterstützung beim Codieren zu erhalten. So können Fehler direkt entdeckt und behoben werden, was Zeit spart und die Effizienz steigert.

Teilnahme am Brainstorming
In Brainstormings kann ChatGPT-4o dein Team als regulärer Teilnehmer unterstützen. Die KI kann helfen, neue Blickwinkel auf Dinge zu erlangen und vielleicht sogar den einen oder anderen hilfreichen Input liefern. Wichtig ist hier das Setup: Die KI muss alle Teilnehmenden sowie ggf. Whiteboards oder Flipcharts gut sichtbar scannen können.

Datenanayse direkt aus Google Drive und Microsoft OneDrive
Eine weitere Neuerung, die dir dein Dasein als Online Marketeer maßgeblich erleichtern kann, ist die neue Funktion für die Datenanalyse. ChatGPT-4o erlaubt das Verknüpfen von Dateien aus dem Google Drive (Google Sheets, Docs und Drive) oder dem Microsoft OneDrive, ohne dass du die Daten zunächst auf deinen Rechner herunterladen und in ChatGPT wieder hochladen musst. Nun werden die Daten analysiert. ChatGPT-4o nutzt Python Code, um verschiedene Aufgaben (z. B. Zusammenführen und Bereinigen von großen Datenmengen und Erstellen von Diagrammen) auszuführen. Anschließend kann GPT-4o die Daten auslesen und analysieren. Du hast die Möglichkeit, ChatGPT-4o direkt in der Tabelle Fragen zu den Daten zu stellen oder einen von verschiedenen vorgefertigten Promts auswählen, die zu deinen Daten erstellt wurden. Darstellungen wie Zeilen, Spalten, Kreis- und Chatter-Plot-Diagramme lassen sich direkt im Chatfenster bearbeiten.

Die letzten 10 Podasts von 121Watt

Alle Podcasts auflisten