der Herbst ist eine wirklich tolle Jahreszeit. Er färbt nicht nur die Blätter bunt, sondern die ganzen Konferenzen wirbeln ziemlich viel durcheinander wie der Wind die Blätter. Die Entwicklerkonferenz von OpenAI war diese Woche dran, und mit dieser legen wir auch direkt los.
Auf der diesjährigen Entwicklerkonferenz von OpenAI gab es eine Fragestunde mit Sam Altman. Dabei stimmt er einer Aussage zu, dass 2025 das Jahr der KI-Agenten werden könnte. Damit ist gemeint, dass KI-Modelle Aufgaben in kleinere Aufgaben unterteilen und so auch komplexe Aufgaben erledigen können.
Quelle: tom's guide - OpenAI confirms AI agents are coming next year — what it means for you
Quelle: YouTube - OpenAI Dev 2024 Day: Fireside chat with CEO Sam Altman
Die Oberfläche von ChatGPT wurde komplett überarbeitet. Mit Canvas gibt es nun mehr Flexibilität, um die Ausgaben zu bearbeiten. Dazu hören Anmerkungen direkt im Text, Anpassungen an die Länge, Anpassung der Komplexität, sprachliche Überarbeitungen und vieles mehr.
Quelle: OpenAI - Introducing canvas
Die Anpassung der Modelle auf die eigenen Bedürfnisse ist z.B. im Firmenumfeld sehr hilfreich. OpenAI hat diese Fähigkeit jetzt auch auf das Vision-Modell erweitert. Dieses erkennt z.B. Objekte in Bildern oder beschreibt diese. Durch das Finetuning erhalten Entwickler und Firmen mehr Flexibilität für den Einsatz und können Fehler reduzieren.
Quelle: OpenAI - Introducing vision to the fine-tuning API
Zumindest funktioniert in Europa der Zugriff auf die API des neuesten Sprachmodells von OpenAI. Damit könnte man sich selbst einen Sprachassistenten bauen. Wann die normalen Beschränkungen fallen, ist weiterhin nicht klar.
Quelle: OpenAI - Introducing the Realtime API
Metas Ray-Bans KI-Brillen erhalten die Fähigkeit, sich an Dinge zu erinnern. Beispielsweise kann man auf sein Auto schauen und sagen, erinnere dich daran, wo ich mein Auto geparkt habe. Auch können die Brillen jetzt QR-Codes auf dem Handy öffnen oder Telefonate beginnen, wenn eine Telefonnummer im Sichtfeld ist.
Quelle: CNET - Meta Ray-Bans' New AI Camera Features Are Arriving Now
Microsoft führt für alle Copilot+ PCs die Recall Funktion ein. Nach anfänglichen Sicherheitsbedenken wurde diese überarbeitet und ist jetzt optional. Recall ist vergleichbar mit der Browser History für deinen PC und was du getan hast. Damit wird auch die Windows eigenen Suche verbessert.
Quelle: Windows Blogs - New experiences coming to Copilot+ PCs and Windows 11
Auch der "normale" Copilot von Microsoft bekommt ein Upgrade. Mit Vision kann er Fragen zur Webseite und deren Inhalt beantworten, auch in natürlicher Sprache. Labs kann als Äquivalent zu OpenAIs o1 Modell gesehen werden, welches in der Lage ist, komplexere Probleme zu verstehen und zu lösen.
Quelle: Microsoft - Introducing Copilot Labs and Copilot Vision
Weiterhin fristet die Bing Suche in Deutschland ein Nischen-Dasein. Unabhängig davon arbeitet Microsoft an weiteren Funktionen für die Suche. Mit "Bing generative search" könnt Ihr es direkt selbst ausprobieren. Abgesehen davon gibt es auch die Besonderheit, dass die Inhaltsersteller vergütet werden, wenn Ihre Inhalte mithilfe der neuen Suche erstellt werden. Ob das nur die großen Medienhäuser betrifft ist noch nicht klar.
Quelle: Bing Blogs - The next step in Bing generative search
Auch Google überarbeitet seine Suche und bringt unter anderem eine verbesserte Bildersuche. So lassen sich Fragen zu einem Bild auch per Sprache stellen. Findet man ein Objekt in einem Bild, kann man direkt damit eine Shoppingtour beginnen. Wenig verwunderlich ist, dass nun auch Werbung Einzug in die Ergebnisse der KI-Suche erhält.
Quelle: Google | The Keyword - Ask questions in new ways with AI in Search
Quelle: Google | Ads & Commerce Blog - New ways for marketers to reach customers with AI Overviews and Lens
Kryptischer Name bzw. Abkürzung, schauen wir es uns an, NVidia Language Model und 72 Milliarden (engl. Billion) Parameter lassen sich dann doch einfach entschlüsseln. Das neue Open Source Modell soll es mit ChatGPT-4o aufnehmen können. Für ein Open Source Modell ist das wirklich ein großer Sprung.
Unter dem Codenamen lief die neuester Version des Text-zu-Bild generators von Black Forest Labs. Mit Flux 1.1 Pro macht das Modell, unter anderem, in der Arbeit mit Texten in Bildern einen Sprung nach vorn. Noch kann man kostenlos testen: glif.app - FLUX PRO 1.1 - Simple POD Prompts
Quelle: VentureBeat - Black Forest Labs releases Flux 1.1 Pro and an API
Auch die abgespeckten Programme Photoshops Elements und Premiere Elements erhalten weitere KI-Funktionen. Dazu wählen der magische Radierer oder Farbkorrekturen.
Quelle: engadget - Adobe Photoshop Elements and Premiere Elements updated with new AI features
Spiele können die Fantasy anregen, wenn Sie uns tolle Geschichten erzählen.. DreamWorld geht einen anderen Weg und erlaubt es und mithilfe von KI so ziemlich jedes Objekt zu erzeugen und in der Spielwelt zu platzieren.
Quelle: VentureBeat - DreamWorld playtest of AI text-to-3D-asset generation coming to Steam
Mit dem Fire HD 8 erhält das neueste Tablet von Amazon ebenfalls KI-Funktionen. Schreibhilfe, Suche etc. sollen direkt mit an Board sein. Diese Funktionen gibt es auch von anderen Webseiten, aber direkt im Tablet kann es einfacher machen, diese Funktionen auch zu nutzen.
Quelle: The Verge - Amazon’s new Fire tablets have AI inside
Auf die Leiter rauf und wieder runter. Das hat Robotic Systems Lab mithilfe von KI beigebracht. So wurden viele verschiedenen Situationen simuliert und so der Roboter angelernt. Vorstellbar wäre, einen solchen Roboter in Gefahrensituationen einzusetzen, um Menschenleben zu schützen.
Quelle: YouTube - Robust Ladder Climbing with a Quadrupedal Robot
Ob rauf, ob runter, es geht voran. Ich freue mich jetzt schon auf die nächste Woche und die neuen Entwicklungen rund um das Thema KI.
Bleib neugierig und bis zum nächsten Mal.