AI Breakdown | KW 44, 2024 – Automatisierung, Videos und Bilder
Guten Morgen liebe AI-Enthusiasten,
diese Woche geht es darum, möglichst wenig Arbeit mit dem Computer zu haben. Fast alle großen Anbieter suchen nach Lösungen, um euch die Arbeit abzunehmen. Schauen wir uns das mal genauer an.
KI übernimmt PC:
zumindest ist das der nächste große Schritt von Anthropic. Mit der neuesten Version gibt es die Möglichkeit, dass die KI euren Computer fernsteuert und Anweisungen direkt auf eurem Computer ausführt. So kann man z.B. Aufgaben, die daraus bestehen, Daten von A nach B zu kopieren, automatisieren. Quelle: https://www.anthropic.com/news/3-5-models-and-computer-use
Verbesserte Modelle
Die Übernahme des PCs ist nur mit bessern Modelle möglich, diese hat Anthropic auch direkt mit vorgestellt. So gibt es von Sonnet eine neue Version, und Haiku kommt neu hinzu. Ebenso sind die Modelle nun in der Lage, Javascript-Code direkt auszuführen und somit Daten zu analysieren und darzustellen. Quelle: https://www.anthropic.com/news/analysis-tool
Agenten für Copilot
Mit Microsofts Copilot Studio sollen auch KI-Agenten Einzug halten. Agenten sollen in der Lage sein, automatisch auf definierte Ereignisse in eurer Firma zu reagieren und entsprechende Befehle ausführen. Die Agenten sollen mit einem Modell laufen welches vergleichbar zu OpenAIs o1 ist. Quelle: https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/unlocking-autonomous-agent-capabilities-with-microsoft-copilot-studio/
Selbstständiger Browser
Auch Google möchte euch Arbeit abnehmen. Schon bald soll es möglich sein, per KI seinen Browser zu steuern. Bleibt nur die Frage, welches Katzenvideo als nächstes läuft.
Quelle: https://www.theinformation.com/articles/google-preps-ai-that-takes-over-computers
Forschung
Die Forschung an LLMs geht unvermittelt weiter. Alleine diese Woche hat Meta acht Paper zu verschiedenen Themen wie: Sprachmodelle, KI-Beschleuniger oder andere Verbesserungen vorgestellt. https://ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua/
Animiert
Runway stellt mit Act-One ein einfaches Tool vor, mit dem man ein Video von sich in eine beliebige Comicfigur verwandeln kann. Dabei werden Kopfbewegungen, Mimik und Mundbewegung übernommen. Quelle: https://runwayml.com/research/introducing-act-one
Open-Source
Auch im Bereich der Text-zu-Video-Modelle gibt es immer mehr Zuwachs in der Open-Source-Szene. Mit Mochi 1 ist der nächste Vertreter erschienen. Eine leistungsfähige Hardware vorausgesetzt, kann man eigene Videos erstellen. Quelle: https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others/
1 Megapixel
Die neueste Version von Stable Defusion kommt in zwei Versionen. 3.5 Large und 3.5 Large Turbo. Beide sollen auf normaler Konsumentenhardware laufen und sind ab sofort zum Download verfügbar. Wie der Name schon sagt, ist Turbo deutlich schneller, dafür kann die andere Bilder mit einer Auflösung von 1 Megapixel erstellen. Quelle: https://stability.ai/news/introducing-stable-diffusion-3-5
Mehr Freiheit
Ideogram, ein Text-zu-Bild-Generator, hat eine neue Reihe an Tools vorgestellt. So lassen sich Bilder einfacher bearbeiten, erweitern oder auch zu einer vorherigen Änderung zurückkehren. Quelle: https://about.ideogram.ai/canvas
Eigene Bilder
Midjourney ermöglicht es jetzt, eigene Bilder hochzuladen und diese per KI zu verändern. Mit der Funktion re-texture lassen sich ganze Bilder in einem neuen Stil erstellen. Beides funktioniert sowohl mit generierten als auch eigenen Bildern.
Quelle: https://x.com/midjourney/status/1849213115009056919
Dream Lab: so nennt Canva die Integration von Leonardo.ai. So lassen sich jetzt Bilder mittels Text innerhalb von Canva erstellen und weiter bearbeiten.
Quelle: https://www.theverge.com/2024/10/22/24276662/canva-ai-update-new-text-to-image-generator-leonardo
Stimme kreieren
Eleven Labs ermöglicht es jetzt, eine Stimme alleine mittels eines Text-Prompts zu erstellen. So kann man die Stimme beschreiben, die man haben möchte und diese dann für seine Texte verwenden. Quelle: https://x.com/elevenlabsio/status/1849083718838657186 https://elevenlabs.io/voice-design
Wasserzeichen für KI-Inhalte
Google DeepMind hat das SynthID für alle kostenlos bereitgestellt. Damit sollen sich Wasserzeichen in KI-Inhalte einbringen lassen. Die Frage ist eher wer das dann nicht macht.
Quelle: https://x.com/GoogleDeepMind/status/1849110263871529114
Teammates
So nennt Asana seine neuen KI-Agenten die euch bei den täglichen Aufgaben unterstützen sollen. Die Aufgaben der Agenten kann man sich leicht zusammenklicken und in seinen täglichen Arbeitsablauf einbinden. Quelle: https://www.zdnet.com/article/asana-launches-a-no-code-tool-for-designing-ai-agents-aka-your-new-teammates/
Der nächste Schritt ist klar, die KI kommt direkt auf den Computer und das Smartphone und soll uns dort helfen. Ob das zu weniger Arbeit führt, muss sich noch zeigen.
Bleib neugierig, euer trio-group-Team
AI-Breakdown Newsletter
Verpassen Sie die KI-Revolution nicht! Wichtige News, Entwicklungen, Trends und Diskussionen rund um KI
Das könnte Sie auch interessieren
Verwandte Themen