AI Breakdown | KW 44, 2024 – Automatisierung, Videos und Bilder

Geschrieben von trio-group | November 2024

Guten Morgen liebe AI-Enthusiasten,

diese Woche geht es darum, möglichst wenig Arbeit mit dem Computer zu haben. Fast alle großen Anbieter suchen nach Lösungen, um euch die Arbeit abzunehmen. Schauen wir uns das mal genauer an.

KI übernimmt PC:

zumindest ist das der nächste große Schritt von Anthropic. Mit der neuesten Version gibt es die Möglichkeit, dass die KI euren Computer fernsteuert und Anweisungen direkt auf eurem Computer ausführt. So kann man z.B. Aufgaben, die daraus bestehen, Daten von A nach B zu kopieren, automatisieren. Quelle: https://www.anthropic.com/news/3-5-models-and-computer-use

Verbesserte Modelle

Die Übernahme des PCs ist nur mit bessern Modelle möglich, diese hat Anthropic auch direkt mit vorgestellt. So gibt es von Sonnet eine neue Version, und Haiku kommt neu hinzu. Ebenso sind die Modelle nun in der Lage, Javascript-Code direkt auszuführen und somit Daten zu analysieren und darzustellen. Quelle: https://www.anthropic.com/news/analysis-tool

Agenten für Copilot

Mit Microsofts Copilot Studio sollen auch KI-Agenten Einzug halten. Agenten sollen in der Lage sein, automatisch auf definierte Ereignisse in eurer Firma zu reagieren und entsprechende Befehle ausführen. Die Agenten sollen mit einem Modell laufen welches vergleichbar zu OpenAIs o1 ist. Quelle: https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/unlocking-autonomous-agent-capabilities-with-microsoft-copilot-studio/

Selbstständiger Browser

Auch Google möchte euch Arbeit abnehmen. Schon bald soll es möglich sein, per KI seinen Browser zu steuern. Bleibt nur die Frage, welches Katzenvideo als nächstes läuft.
Quelle: https://www.theinformation.com/articles/google-preps-ai-that-takes-over-computers

Forschung

Die Forschung an LLMs geht unvermittelt weiter. Alleine diese Woche hat Meta acht Paper zu verschiedenen Themen wie: Sprachmodelle, KI-Beschleuniger oder andere Verbesserungen vorgestellt. https://ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua/

Animiert

Runway stellt mit Act-One ein einfaches Tool vor, mit dem man ein Video von sich in eine beliebige Comicfigur verwandeln kann. Dabei werden Kopfbewegungen, Mimik und Mundbewegung übernommen. Quelle: https://runwayml.com/research/introducing-act-one

Open-Source

Auch im Bereich der Text-zu-Video-Modelle gibt es immer mehr Zuwachs in der Open-Source-Szene. Mit Mochi 1 ist der nächste Vertreter erschienen. Eine leistungsfähige Hardware vorausgesetzt, kann man eigene Videos erstellen. Quelle: https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others/

1 Megapixel

Die neueste Version von Stable Defusion kommt in zwei Versionen. 3.5 Large und 3.5 Large Turbo. Beide sollen auf normaler Konsumentenhardware laufen und sind ab sofort zum Download verfügbar. Wie der Name schon sagt, ist Turbo deutlich schneller, dafür kann die andere Bilder mit einer Auflösung von 1 Megapixel erstellen. Quelle: https://stability.ai/news/introducing-stable-diffusion-3-5

Mehr Freiheit

Ideogram, ein Text-zu-Bild-Generator, hat eine neue Reihe an Tools vorgestellt. So lassen sich Bilder einfacher bearbeiten, erweitern oder auch zu einer vorherigen Änderung zurückkehren. Quelle: https://about.ideogram.ai/canvas

Eigene Bilder

Midjourney ermöglicht es jetzt, eigene Bilder hochzuladen und diese per KI zu verändern. Mit der Funktion re-texture lassen sich ganze Bilder in einem neuen Stil erstellen. Beides funktioniert sowohl mit generierten als auch eigenen Bildern.
Quelle: https://x.com/midjourney/status/1849213115009056919

Dream Lab: so nennt Canva die Integration von Leonardo.ai. So lassen sich jetzt Bilder mittels Text innerhalb von Canva erstellen und weiter bearbeiten.
Quelle: https://www.theverge.com/2024/10/22/24276662/canva-ai-update-new-text-to-image-generator-leonardo

Stimme kreieren

Eleven Labs ermöglicht es jetzt, eine Stimme alleine mittels eines Text-Prompts zu erstellen. So kann man die Stimme beschreiben, die man haben möchte und diese dann für seine Texte verwenden. Quelle: https://x.com/elevenlabsio/status/1849083718838657186 https://elevenlabs.io/voice-design

Wasserzeichen für KI-Inhalte

Google DeepMind hat das SynthID für alle kostenlos bereitgestellt. Damit sollen sich Wasserzeichen in KI-Inhalte einbringen lassen. Die Frage ist eher wer das dann nicht macht.
Quelle: https://x.com/GoogleDeepMind/status/1849110263871529114

Teammates

So nennt Asana seine neuen KI-Agenten die euch bei den täglichen Aufgaben unterstützen sollen. Die Aufgaben der Agenten kann man sich leicht zusammenklicken und in seinen täglichen Arbeitsablauf einbinden. Quelle: https://www.zdnet.com/article/asana-launches-a-no-code-tool-for-designing-ai-agents-aka-your-new-teammates/

Der nächste Schritt ist klar, die KI kommt direkt auf den Computer und das Smartphone und soll uns dort helfen. Ob das zu weniger Arbeit führt, muss sich noch zeigen.

Bleib neugierig, euer trio-group-Team

Vollständigen Beitrag anzeigen