Das Jahr nähert sich dem Ende und noch wird überall fleißig gewerkelt und geschraubt. Der Endspurt naht und das merkt man auch bei den vielen News, die uns diese Woche begleitet haben. Starten wir direkt mal rein:
ChatGPT Pro: OpenAI hat o1 und o1-pro-mode vorgestellt. Beide Modelle sind in dem neuen 200$ teuren Pro-Plan enthalten. Dabei erhält das System im pro-mode mehr Ressourcen und Zeit für die Antwort, wodurch diese besser ausfallen sollen. o1 erstellt, wie schon o1-preview, eigene Aufgaben und teilt die Aufgabe in Schritte auf. Dadurch werden auch komplexere Antworten möglich. https://openai.com/index/introducing-chatgpt-pro/
Abstimmung: OpenAI öffnet auch das Reinforcement Finetuning Programm. Entwickler und Forscher sollen so einfacher bestehende Modelle auf besondere Bedürfnisse anpassen können. Die Bewerbung für das Programm steht nun jedem offen und soll weiter ausgebaut werden. https://openai.com/form/rft-research-program/
Untertitel: Seit den 70er Jahren gibt es für Bewegtbilder die ersten Untertitel. Die Verwendung hat insgesamt zugenommen, da diese auch an lauten Orten helfen, das Gesagte zu verstehen. Google hat eine verbesserte Version vorgestellt, mit der auch Emotionen, Ausdrücke und Hintergrundgeräusche automatisch eingefügt werden. https://blog.google/products/android/google-android-expressive-captions/
Spielwelt: Genie 2 von Googles Deepmind Forschungsgruppe stellt den nächsten Schritt in Richtung einer simulierten Spielwelt dar. Genie 2 kann konsistente und begehbare Spielwelten erstellen. Aktuell ist das Modell auf 1 Minute beschränkt, aber die Möglichkeiten sind deutlich gestiegen. https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Welten: Ähnliches kann World Labs AI welches aus einem Bild eine interaktive 3D-Szene erstellt. Das Modell hat dabei noch Schwierigkeiten mit der Konsistenz der Welt und anderen Artefakten. Bis zum eigenen Computerspiel mithilfe eines Prompts ist es noch ein langer Weg. https://techcrunch.com/2024/12/02/world-labs-ai-can-generate-interactive-3d-scenes-from-a-single-photo/
Kostenlos: Grok, der Chatbot von x (vormals Twitter) ist ab sofort kostenlos verfügbar. Wer Grok schon immer mal ausprobieren wollte, erhält so die Möglichkeit. Für Grok 2 muss weiterhin ein Abo abgeschlossen werden. https://www.theverge.com/2024/12/6/24314860/x-grok-ai-chatbot-available-all-users
Günstiger: Meta hat die neueste Version seines Open-Source-Modells Llama 3.3 70B vorgestellt. Damit lassen sich Ergebnisse ähnlich zu Llama 3.1 405B erzielen. Durch die deutliche Ressourceneinsparung vergrößern sich so die Einsatzmöglichkeiten und reduzieren sich die Kosten. https://techcrunch.com/2024/12/06/meta-unveils-a-new-more-efficient-llama-model/
Bildbeschreibung: Google hat ebenfalls eine weitere Version seines Open-Source-Modells PaliGemma veröffentlicht. Mit Version 2 verbessert sich die Fähigkeiten zur Beschreibung von Bildern. So werden die Details besser und auch Texte und Formel sollen erkannt werden. https://developers.googleblog.com/en/introducing-paligemma-2-powerful-vision-language-models-simple-fine-tuning/
Wetter: GenCast kann das Wetter und das Risiko von Extrembedingungen vorhersagen. Dabei schneidet es insgesamt besser ab als vorhandene Wettermodelle. Die Vorhersagen reichen bis zu 15 Tage in die Zukunft und können deutlich schneller erstellt werden. https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/
Amazon: Obwohl Amazon sehr viel Geld in Anthropic investiert hat, entwickelt das Unternehmen eigene KI-Modelle. Gleich sechs verschiedene Modelle wurden vorgestellt und sind teilweise schon für Entwickler verfügbar. Neben Sprachmodellen sind auch Bild- und Videomodelle dabei. https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws
Stimmung: Mit Hume könnt Ihr Texte vertonen. Mit der neuen Funktion "Voice Control" kann man nun dem gesprochenen Wort eine Stimmung verpassen. In 10 verschiedenen Arten lässt sich somit die Stimme an die eigenen Bedürfnisse des Textes anpassen. https://www.hume.ai/blog/introducing-voice-control
Video: OpenAI soeben Sora endlich freigegeben. Als Plus und Pro Abonnenten könnt Ihr jetzt Videos erstellen und diese auch nachträglich bearbeiten, Dinge verändern oder als Endlosschleife umbauen. Ich bin sehr gespannt auf eure Kreationen, falls du es schon getestet hast, würde mich dein Feedback und deine Videos dazu sehr freuen. https://openai.com/sora/
Das Jahr strengt sich noch mal an und versorgt uns mit vielen neuen Tools und Funktionen. Vonseiten der KI-Welt liegt also schon jetzt viel unter dem Weihnachtsbaum, was man zwischen den Tagen ausprobieren kann.
Ich freue mich darauf und auf die nächste Ausgabe des AI-Breakdowns.
Bis dahin, bleib neugierig.