Google hat am Mittwoch die Einführung von Gemini 2.0 angekündigt, dem bisher fortschrittlichsten KI-Modell des Unternehmens. In einem Wettlauf um die Vorherrschaft in der schnell wachsenden Technologiebranche erklärte CEO Sundar Pichai, dass dieses Modell eine "neue agentische Ära" in der KI-Entwicklung einleitet. Gemini 2.0 soll Informationen nützlicher machen, indem es den Kontext besser versteht, mehrere Schritte im Voraus denkt und überwachte Aktionen im Auftrag der Nutzer ausführt.
Die Ankündigung führte zu einem Anstieg der Google-Aktien um mehr als vier Prozent, nachdem der Kurs bereits am Vortag um 3,5 Prozent gestiegen war, nachdem ein bahnbrechender Quantenchip vorgestellt wurde.
Die großen Tech-Unternehmen setzen alles daran, leistungsstärkere KI-Modelle zu entwickeln, trotz der enormen Kosten und einiger Fragen zur unmittelbaren Nützlichkeit für die breitere Wirtschaft.
Ein KI-"Agent" ist ein digitaler Helfer, der die Umgebung wahrnimmt, Entscheidungen trifft und Maßnahmen ergreift, um spezifische Ziele zu erreichen. Die Tech-Giganten versprechen, dass Agenten die nächste Stufe einer KI-Revolution darstellen, die durch die Einführung von ChatGPT im Jahr 2022 ausgelöst wurde.
Gemini 2.0 wird zunächst an Entwickler und vertrauenswürdige Tester ausgerollt, mit Plänen für eine breitere Integration in Googles Produkte, insbesondere in die Suche und die Gemini-Plattform.
Die Technologie wird von Googles sechster Generation von TPU (Tensor Processing Unit) Hardware, genannt Trillium, unterstützt, die nun allgemein für Kunden verfügbar ist. Google betonte, dass die Trillium-Prozessoren ausschließlich für das Training und den Betrieb von Gemini 2.0 verwendet wurden.
Die meisten KI-Trainings werden derzeit von dem Chip-Riesen Nvidia dominiert, der durch den KI-Boom zu einem der wertvollsten Unternehmen der Welt aufgestiegen ist. Google gab an, dass Millionen von Entwicklern bereits Anwendungen mit der Gemini-Technologie erstellen, die in sieben Google-Produkten integriert ist, die jeweils mehr als zwei Milliarden Nutzer bedienen.
Die Fähigkeiten von Gemini 2.0 werden voraussichtlich Anfang 2025 in die Google-Suchanwendung integriert, die nach wie vor das Hauptgeschäft des Unternehmens darstellt.
Die erste Veröffentlichung aus der 2.0-Modellreihe wird Flash sein, das eine schnellere Leistung bietet und mehrere Eingabetypen (Text, Bilder, Video, Audio) sowie Ausgaben (einschließlich generierter Bilder und Sprache) verarbeiten kann.
Weltweit können Gemini-Nutzer bereits auf eine chatbasierte Version von Flash zugreifen, während Testern eine multimodale Version zur Verfügung steht, die Bilder und Umgebungen interpretieren kann.
Google experimentiert auch mit einem Produkt, das Software-Apps, Websites und andere Online-Tools nutzen kann, ähnlich wie ein menschlicher Nutzer. OpenAI und Anthropic haben ähnliche Funktionen vorgestellt.
Das Unternehmen hat zudem eine neue Version von Project Astra angedeutet, einem digitalen Smartphone-Assistenten, der auf Bilder sowie verbale Befehle reagiert.