AI Breakdown der trio-group

AI Breakdown | KW 41, 2024 - Canvas, Vision, Brillen und Abkürzungen

Geschrieben von trio-group | November 2024

Hallo liebe AI-Enthusiasten,

der Herbst ist eine wirklich tolle Jahreszeit. Er färbt nicht nur die Blätter bunt, sondern die ganzen Konferenzen wirbeln ziemlich viel durcheinander wie der Wind die Blätter. Die Entwicklerkonferenz von OpenAI war diese Woche dran, und mit dieser legen wir auch direkt los.

KI-Agenten 2025?

Auf der diesjährigen Entwicklerkonferenz von OpenAI gab es eine Fragestunde mit Sam Altman. Dabei stimmt er einer Aussage zu, dass 2025 das Jahr der KI-Agenten werden könnte. Damit ist gemeint, dass KI-Modelle Aufgaben in kleinere Aufgaben unterteilen und so auch komplexe Aufgaben erledigen können.

Quelle: tom's guide - OpenAI confirms AI agents are coming next year — what it means for you
Quelle: YouTube - OpenAI Dev 2024 Day: Fireside chat with CEO Sam Altman

OpenAI Canvas

Die Oberfläche von ChatGPT wurde komplett überarbeitet. Mit Canvas gibt es nun mehr Flexibilität, um die Ausgaben zu bearbeiten. Dazu hören Anmerkungen direkt im Text, Anpassungen an die Länge, Anpassung der Komplexität, sprachliche Überarbeitungen und vieles mehr.

Quelle: OpenAI - Introducing canvas

Feintuning für Bilder

Die Anpassung der Modelle auf die eigenen Bedürfnisse ist z.B. im Firmenumfeld sehr hilfreich. OpenAI hat diese Fähigkeit jetzt auch auf das Vision-Modell erweitert. Dieses erkennt z.B. Objekte in Bildern oder beschreibt diese. Durch das Finetuning erhalten Entwickler und Firmen mehr Flexibilität für den Einsatz und können Fehler reduzieren.

Quelle: OpenAI - Introducing vision to the fine-tuning API

Erweitertes Sprachmodell doch in Europa?

Zumindest funktioniert in Europa der Zugriff auf die API des neuesten Sprachmodells von OpenAI. Damit könnte man sich selbst einen Sprachassistenten bauen. Wann die normalen Beschränkungen fallen, ist weiterhin nicht klar.

Quelle: OpenAI - Introducing the Realtime API

Brillen mit Erinnerung

Metas Ray-Bans KI-Brillen erhalten die Fähigkeit, sich an Dinge zu erinnern. Beispielsweise kann man auf sein Auto schauen und sagen, erinnere dich daran, wo ich mein Auto geparkt habe. Auch können die Brillen jetzt QR-Codes auf dem Handy öffnen oder Telefonate beginnen, wenn eine Telefonnummer im Sichtfeld ist.

Quelle: CNET - Meta Ray-Bans' New AI Camera Features Are Arriving Now

Recall kommt

Microsoft führt für alle Copilot+ PCs die Recall Funktion ein. Nach anfänglichen Sicherheitsbedenken wurde diese überarbeitet und ist jetzt optional. Recall ist vergleichbar mit der Browser History für deinen PC und was du getan hast. Damit wird auch die Windows eigenen Suche verbessert.

Quelle: Windows Blogs - New experiences coming to Copilot+ PCs and Windows 11

Copilot Vison & Labs

Auch der "normale" Copilot von Microsoft bekommt ein Upgrade. Mit Vision kann er Fragen zur Webseite und deren Inhalt beantworten, auch in natürlicher Sprache. Labs kann als Äquivalent zu OpenAIs o1 Modell gesehen werden, welches in der Lage ist, komplexere Probleme zu verstehen und zu lösen.

Quelle: Microsoft - Introducing Copilot Labs and Copilot Vision

Abgeschlagen

Weiterhin fristet die Bing Suche in Deutschland ein Nischen-Dasein. Unabhängig davon arbeitet Microsoft an weiteren Funktionen für die Suche. Mit "Bing generative search" könnt Ihr es direkt selbst ausprobieren. Abgesehen davon gibt es auch die Besonderheit, dass die Inhaltsersteller vergütet werden, wenn Ihre Inhalte mithilfe der neuen Suche erstellt werden. Ob das nur die großen Medienhäuser betrifft ist noch nicht klar.

Quelle: Bing Blogs - The next step in Bing generative search

Marktführer

Auch Google überarbeitet seine Suche und bringt unter anderem eine verbesserte Bildersuche. So lassen sich Fragen zu einem Bild auch per Sprache stellen. Findet man ein Objekt in einem Bild, kann man direkt damit eine Shoppingtour beginnen. Wenig verwunderlich ist, dass nun auch Werbung Einzug in die Ergebnisse der KI-Suche erhält.

Quelle: Google | The Keyword - Ask questions in new ways with AI in Search
Quelle:  Google | Ads & Commerce Blog - New ways for marketers to reach customers with AI Overviews and Lens

NVLM-D-72B

Kryptischer Name bzw. Abkürzung, schauen wir es uns an, NVidia Language Model und 72 Milliarden (engl. Billion) Parameter lassen sich dann doch einfach entschlüsseln. Das neue Open Source Modell soll es mit ChatGPT-4o aufnehmen können. Für ein Open Source Modell ist das wirklich ein großer Sprung.

Quelle: VentureBeat - Nvidia just dropped a bombshell: Its new AI model is open, massive, and ready to rival GPT-4

Blueberry

Unter dem Codenamen lief die neuester Version des Text-zu-Bild generators von Black Forest Labs. Mit Flux 1.1 Pro macht das Modell, unter anderem, in der Arbeit mit Texten in Bildern einen Sprung nach vorn. Noch kann man kostenlos testen: glif.app - FLUX PRO 1.1 - Simple POD Prompts

Quelle: VentureBeat - Black Forest Labs releases Flux 1.1 Pro and an API

Adobe rüstet nach

Auch die abgespeckten Programme Photoshops Elements und Premiere Elements erhalten weitere KI-Funktionen. Dazu wählen der magische Radierer oder Farbkorrekturen.

Quelle: engadget - Adobe Photoshop Elements and Premiere Elements updated with new AI features

Fantasy

Spiele können die Fantasy anregen, wenn Sie uns tolle Geschichten erzählen.. DreamWorld geht einen anderen Weg und erlaubt es und mithilfe von KI so ziemlich jedes Objekt zu erzeugen und in der Spielwelt zu platzieren.

Quelle: VentureBeat - DreamWorld playtest of AI text-to-3D-asset generation coming to Steam

Heißer Herbst

Mit dem Fire HD 8 erhält das neueste Tablet von Amazon ebenfalls KI-Funktionen. Schreibhilfe, Suche etc. sollen direkt mit an Board sein. Diese Funktionen gibt es auch von anderen Webseiten, aber direkt im Tablet kann es einfacher machen, diese Funktionen auch zu nutzen.

Quelle: The Verge - Amazon’s new Fire tablets have AI inside

Leiter

Auf die Leiter rauf und wieder runter. Das hat Robotic Systems Lab mithilfe von KI beigebracht. So wurden viele verschiedenen Situationen simuliert und so der Roboter angelernt. Vorstellbar wäre, einen solchen Roboter in Gefahrensituationen einzusetzen, um Menschenleben zu schützen.

Quelle: YouTube - Robust Ladder Climbing with a Quadrupedal Robot

Ob rauf, ob runter, es geht voran. Ich freue mich jetzt schon auf die nächste Woche und die neuen Entwicklungen rund um das Thema KI.

Bleib neugierig und bis zum nächsten Mal.