Agentische KI wird praktikabel: Lokale Systeme benötigen weiterhin mehr Speicher

Von | 30. April 2026 | KI, Alle, Hervorgehoben

Agentenbasierte KI-Workloads benötigen mehr Speicher als herkömmliche KI, insbesondere bei lokaler Ausführung. Mit zunehmender Modellgröße und der Verwaltung langlaufender Zustände durch Agenten wird der Speicher zum Hauptengpass. Dieser Artikel erklärt, wie… aiDAPTIV erweitert den effektiven KI-Speicher, um größere und leistungsfähigere Modelle zuverlässig auf praktischen Systemen ausführen zu können.

 

Persistente, Tools nutzende KI-Agenten halten Einzug in reale Arbeitsabläufe. AMD hat für diesen Zweck eine neue Gerätekategorie geprägt: den “Agentencomputer”. NVIDIA kündigte NemoClaw an, eine Open-Source-Sicherheits- und Datenschutzschicht, die auf OpenClaw aufbaut und richtlinienbasierte Schutzmechanismen für Unternehmenseinsätze hinzufügt. Alle reden darüber, was Agenten leisten können. Weitaus weniger Beachtung findet jedoch, was nötig ist, um leistungsfähige agentenbasierte KI auf lokalen Systemen optimal auszuführen.

Das ist wichtig, weil agentenbasierte Workloads höhere Anforderungen stellen. Sie leisten mehr als nur die Beantwortung einer einzelnen Anfrage. Sie planen, nutzen Werkzeuge, speichern Zustände über die Zeit und arbeiten über mehrere Schritte hinweg. Bei solchen Aufgaben ist die Modellqualität von größerer Bedeutung, was Entwickler oft dazu veranlasst, größere und leistungsfähigere Modelle zu entwickeln.

 

Warum lokale agentenbasierte KI wichtig ist

Die Argumente für das Laufen KI Die lokale Bereitstellung von Agenten ist unkompliziert. Dadurch bleiben sensible Daten auf dem Gerät, die Kosten für Cloud-Inferenz, die mit der Nutzung skalieren, werden vermieden, die Latenz bei interaktiven Workloads wird reduziert und Entwicklern wird mehr Kontrolle über das Modell und sein Verhalten ermöglicht. Dies ist besonders vorteilhaft für Unternehmen, die proprietäre Daten verarbeiten, und für OEMs, die Always-On-Agent-Erlebnisse entwickeln., lokale Inferenz ist oft eine Voraussetzung, nicht nur eine Präferenz.

Das Problem ist, dass viele Entwickler für leistungsfähige agentenbasierte KI immer noch auf die Cloud setzen, und zwar aus einem einfachen Grund: Stärkere Modelle lassen sich dort leichter ausführen.

Bei vielen lokalen Systemen ist nicht allein die Rechenleistung der Flaschenhals, sondern der Speicher. Der GPU-VRAM ist begrenzt. System-DRAM oder der gemeinsame Speicher ist begrenzt. Bei Speicherknappheit greifen lokale Bereitstellungen häufig auf kleinere Modelle, strengere Grenzwerte oder eine aggressivere Quantisierung zurück.

Diese Kompromisse können zwar die Modellanpassung verbessern, aber auch die Zuverlässigkeit bei mehrstufigen Schlussfolgerungen, der Werkzeugnutzung und längeren Aufgaben beeinträchtigen. Anders ausgedrückt: Lokale agentenbasierte KI begnügt sich oft mit kleineren Modellen, nicht weil diese ideal wären, sondern weil Speicherbeschränkungen diesen Kompromiss erzwingen.

 

Was erschwert agentenbasierte Arbeitslasten?

Ein KI-Agent ist mehr als ein Chatbot. Anstatt nur eine Anfrage zu beantworten und dann aufzuhören, kann er den Status über einen längeren Zeitraum speichern, Tools nutzen, externe Systeme überprüfen und in Ihrem Namen Aktionen ausführen.

Das ändert das Speicherproblem.

Die meisten Chatbot-Interaktionen sind im Vergleich zu den Arbeitsabläufen von Agenten relativ kurzlebig. Agenten hingegen verwalten einen persistenten Sitzungsstatus, managen lange Kontextfenster, überwachen sich ändernde Datenquellen und orchestrieren mehrere Tools gleichzeitig. Daher müssen sie oft mehr Informationen über einen längeren Zeitraum verfügbar halten.

Für Entwickler, die komplexere Arbeitsabläufe erstellen, reicht möglicherweise nicht ein einzelner Agent aus. Ein mit einem Repository verknüpfter Codierungsagent, ein Rechercheagent zur Überwachung von Datenquellen und ein Schreibagent zur Verwaltung längerer Texte bringen jeweils ihren eigenen Sitzungsstatus und ihre eigenen Werkzeuge mit, wodurch der Speicherbedarf schnell ansteigt.

 

Lokale Hardware stößt an ihre Speichergrenzen

Ein großes lokales Modell mit 4-Bit-Quantisierung kann allein für die Gewichte Dutzende von Gigabyte Speicherplatz benötigen. Eine High-End-Grafikkarte für Endverbraucher verfügt möglicherweise über 24 GB VRAM. Die Berechnungen werden komplex, bevor man den KV-Cache, den Laufzeit-Overhead oder den Agentenstatus berücksichtigt.

Deshalb tendiert die lokale agentenbasierte KI häufig zu kleineren Modellen. Es geht nicht nur darum, ob ein Modell gestartet werden kann. Vielmehr geht es darum, ob ein leistungsfähigeres Modell zuverlässig genug läuft, um persistente, toolbasierte und mehrstufige Arbeitslasten auf gängiger Client-Hardware zu bewältigen.

Ohne eine Lösung stehen Entwickler und OEMs vor schwierigen Abwägungen: Sie müssen Kontext verkürzen und Kohärenz einbüßen, Latenzspitzen in Kauf nehmen, wenn Daten in langsamere Speicherebenen ausgelagert werden, oder teure GPUs mit hohem Speicherbedarf einsetzen, die für viele Nutzer unerschwinglich sind. Keine dieser Optionen ist ideal, wenn Agenten-PCs eine breite Akzeptanz erreichen sollen.

 

 

Wie Phisons Pascari aiDAPTIV™ den KI-Speicher erweitert

aiDAPTIV begegnet diesen Herausforderungen durch die Erweiterung des effektiven KI-Speichers über GPU-Speicher, System-DRAM und Flash-Speicher, Dadurch wird eine Speicherhierarchie geschaffen, die es ermöglicht, größere Modelle auf praktikableren Systemen auszuführen, ohne dass die Entwickler jede Ebene manuell verwalten müssen.

 

Häufig genutzte Daten verbleiben im VRAM. Weniger häufig genutzte Daten verbleiben im DRAM und stehen für die schnelle Wiederverwendung bereit. Weniger häufig genutzte Daten können in einen aiDAPTIV Cache-Speicher (SSD) ausgelagert werden, anstatt direkt verworfen zu werden. Dies beseitigt zwar nicht die Latenzprobleme, ermöglicht aber die praktische Ausführung größerer und länger laufender Agenten-Workloads auf Systemen, die andernfalls an ihre Grenzen stoßen würden. Erinnerung Grenzen viel früher.

 

Wie aiDAPTIV größere MoE-Modelle lokal ausführt

In einem Mischung von Expertenmodell, Nur eine Teilmenge der Experten ist für jedes Token aktiv. aiDAPTIV trägt dazu bei, dass die aktiven oder kürzlich verwendeten Experten näher an den Rechenressourcen bleiben, während weniger aktive Experten auf kostengünstigeren Speicher ausweichen können.

 

Der Router wählt die für das aktuelle Token benötigten Experten aus. Aktive Experten verbleiben im GPU-Speicher zur sofortigen Ausführung. Kürzlich verwendete Experten können im System-DRAM für eine schnelle Wiederverwendung gespeichert werden. Weniger aktive Experten können in den aiDAPTIV-Cache-Speicher ausgelagert werden, anstatt das Modell auf eine kleinere Konfiguration zu reduzieren. Wird einer dieser Experten erneut benötigt, hilft aiDAPTIV dabei, ihn wieder in eine schnellere Ebene zu bringen.

Die dynamische MoE-Auslagerung von aiDAPTIV integriert sich in llama.cpp und stellt diese Funktionalität über einen Standard-Inferenz-API-Endpunkt zur Verfügung.

 

GTC 2026: Ein 120B-Modell auf einem Laptop ausführen

Auf der GTC 2026, Phison demonstrierte eine einfache OpenClaw-Anwendung auf einem Acer-Laptop mit einer NVIDIA® GeForce RTX™ 5090 GPU, 24 GB VRAM und 64 GB System-DRAM. aiDAPTIV, Das System führte gpt-oss-120B lokal aus und nutzte MoE Expert Offloading zur Erweiterung des effektiven Speichers mit etwa 15 Token pro Sekunde. Laut OpenAI benötigt gpt-oss-120B für den nativen Betrieb eine einzelne 80-GB-GPU – mehr als das Dreifache des im Demosystem verfügbaren VRAM. Genau diesen Kompromiss ändert aiDAPTIV. Anstatt lokale agentenbasierte KI zu zwingen, sich mit einem kleineren Modell zufriedenzugeben, ermöglicht es, größere und leistungsfähigere Modelle auf praxisnaher Client-Hardware auszuführen.

Hinweis: Die Modellkarte von OpenAI gibt 80 GB für den Einsatz mit einer einzelnen GPU an. Der Durchsatz in der Demo betrug ca. 15.000 Tokens pro Sekunde (tok/s), bzw. ca. 5–6.000 Tokens pro Sekunde (tok/s) mit aktivierter KV-Cache-Wiederverwendung.

Was dies für Gerätehersteller bedeutet

OEMs, die Agenten-PCs herstellen, stehen heute vor einer schwierigen Entscheidung: Entweder sie spezifizieren eine GPU mit ausreichend Speicher für größere Agenten-Workloads, was die Kosten erhöht und den potenziellen Markt einschränkt, oder sie liefern mit begrenztem Speicher und akzeptieren eine reduzierte Leistungsfähigkeit. Beides sind keine idealen Produktlösungen.

aiDAPTIV ändert diese Gleichung. Ein Client-System der Mittelklasse oder mit begrenztem Speicher, kombiniert mit schnellem DRAM und aiDAPTIV-Cache-Speicher, kann den effektiven Speicher erweitern, wodurch größere Agenten-Workloads praktikabel werden, ohne dass GPUs mit deutlich mehr Speicher erforderlich sind.

Dies ist insbesondere bei Notebooks und anderen Client-Systemen mit geringem Arbeitsspeicher relevant. Da integrierte und Client-GPUs immer leistungsfähiger werden, bleibt der Arbeitsspeicher eine der größten Hürden für die lokale Ausführung anspruchsvoller agentenbasierter Workloads. Intelligentes Memory Tiering ermöglicht den Einsatz von länger laufenden, leistungsfähigeren Agenten auf schlankeren und kostengünstigeren Systemen, die andernfalls viel schneller an ihre Grenzen stoßen würden.

 

Die Lücke, die aiDAPTIV füllt

Der Übergang zu agentenbasierter KI offenbart hinter der anfänglichen Begeisterung ein praktisches Problem: Leistungsstärkere lokale Agenten benötigen leistungsstärkere Modelle, und diese wiederum benötigen mehr Speicher. Diese Speicherelastizität stellt nach wie vor eine echte Lücke im lokalen KI-Stack dar. Genau das ist das Problem. aiDAPTIV wurde entwickelt, um Probleme zu lösen.

 

Arbeiten Sie mit Phison zusammen

Der Speicher der KI ist oft der Flaschenhals für lokale agentenbasierte KI. Kontaktiere uns um herauszufinden, wie aiDAPTIV helfen kann.

Häufig gestellte Fragen (FAQ):

Was ist agentenbasierte KI und wie unterscheidet sie sich von traditionellen KI-Modellen?

Agentische KI bezeichnet Systeme, die über Interaktionen mit einmaligen Reaktionen hinausgehen. Diese Agenten planen Aufgaben, nutzen externe Werkzeuge, pflegen Sie speichern Daten über mehrere Sitzungen hinweg und können mehrstufige Arbeitsabläufe ausführen. Im Gegensatz zu herkömmlichen Chatbots können sie erfordern persistenter Zustand und längere Kontextverarbeitung, wodurch beides erhöht wird berechnen und Speicheranforderungen.

Warum ist der Arbeitsspeicher ein kritischer Engpass für den lokalen Einsatz von KI?

Lokale Systeme sind durch den GPU-VRAM und den System-DRAM beschränkt. Komplexe Modelle benötigen allein für die Gewichte Dutzende Gigabytes, ohne den Laufzeit-Overhead wie KV-Cache und Agentenstatus zu berücksichtigen. Bei unzureichendem Speicher müssen Entwickler die Modellgröße oder die Leistung reduzieren, was die praktische Anwendbarkeit einschränkt.

Warum bevorzugen Unternehmen den lokalen Betrieb von KI anstatt den Betrieb in der Cloud?

Der lokale Einsatz von KI gewährleistet Datensouveränität und reduziert die Latenzzeit bei der Datenverarbeitung., beseitigt Die Cloud-Kosten sind gering, und die Modellsteuerung ist vollständig kontrollierbar. In Unternehmens-IT-Umgebungen, die proprietäre Daten verarbeiten, ist die lokale Inferenz häufig eine Compliance- und Sicherheitsanforderung.

Welche Herausforderungen ergeben sich durch agentenbasierte Workloads im Vergleich zur Standardinferenz?

Agentenbasierte Workloads erfordern eine kontinuierliche Speicherzuweisung für Sitzungsstatus, Werkzeugorchestrierung und langfristige Kontextbeibehaltung. Mehrere gleichzeitig laufende Agenten können den Speicherbedarf erhöhen, sodass herkömmliche Hardwarekonfigurationen ohne Optimierung nicht ausreichen.

Warum sind größere Modelle für agentenbasierte KI notwendig?

Größere Modelle im Allgemeinen liefern Bessere Fähigkeiten im logischen Denken, Planen und im Umgang mit Werkzeugen sind unerlässlich für zuverlässige, mehrstufige Arbeitsabläufe. Ihr Speicherbedarf macht sie jedoch zu einer Herausforderung. ihnen schwierig zur Bereitstellung auf Standard-Clienthardware.

Wie verbessert Phison aiDAPTIV™ die lokale KI-Leistung?

aiDAPTIV Es wird eine hierarchische Speicherarchitektur eingeführt, die Arbeitslasten dynamisch auf GPU-VRAM, System-DRAM und SSD-basierten Cache verteilt. Dieser Ansatz erweitert die effektive Speicherkapazität ohne manuelle Datenverwaltung und ermöglicht so die effiziente Ausführung größerer Modelle auf ressourcenbeschränkten Systemen.

Welche Rolle spielt aiDAPTIV in Mixture-of-Experts-Modellen (MoE)?

aiDAPTIV optimiert MoE Die Ausführung erfolgt durch die Speicherung aktiver Ressourcen im VRAM, kürzlich genutzter Ressourcen im DRAM und weniger aktiver Ressourcen im SSD-Cache. Dieses dynamische Tiering stellt sicher, dass nur die notwendigen Komponenten geladen werden. bleiben in Hochgeschwindigkeitsspeicher, wodurch die Effizienz verbessert wird, ohne die Modellgröße zu verringern.

Wie ermöglicht aiDAPTIV die Bereitstellung großer Modelle auf Verbraucherhardware?

Durch Auslagerung inaktiver Modellkomponenten auf kostengünstigere Speicherebenen, aiDAPTIV Dies ermöglicht es Systemen mit begrenztem VRAM, Modelle auszuführen, die üblicherweise High-End-GPUs erfordern. Dadurch werden die Hardware-Hürden für den lokalen Einsatz von KI deutlich gesenkt.

Was wurde auf der GTC 2026 mit aiDAPTIV demonstriert?

Phison Es wurde ein lokal auf einem Laptop mit einer 24 GB GPU laufendes 120-Billionen-Parameter-Modell demonstriert. Das System erreichte dabei etwa 15 Token pro Sekunde. aiDAPTIVs Speicherstufen und MoE Auslagerung, was beweist, dass groß angelegte Modelle können arbeiten auf praktischer Hardware.

Welchen Nutzen bietet aiDAPTIV OEMs und Systemintegratoren für Unternehmen?

aiDAPTIV Ermöglicht OEMs die Entwicklung KI-fähiger Systeme ohne überdimensionierten, teuren GPU-Speicher. Es unterstützt skalierbare, latenzarme und KI-fähige Architekturen und ermöglicht so die Bereitstellung von agentenbasierter KI-Leistung auf Unternehmensebene in kosteneffizienten Geräten.

Die Stiftung, die Innovation beschleunigt™

de_DEDeutsch