Xient Local LLM · KI-Governance

On-Prem · Dedicated Server · Self-hosted

Starke KI.
Im eigenen Haus.

Ihre KI dort, wo Ihre Daten sind - auf Ihrer Hardware, unter Ihrer Kontrolle. Wir bringen das richtige Modell sicher in Betrieb, optimal für Ihren Zweck, ohne dass je ein Datensatz das Haus verlässt.

Level up your AI.

Erstgespräch vereinbaren

Warum lokal

Manche Daten gehören nicht in fremde Hände.

Cloud-KI ist bequem - aber nicht für jeden Fall. Wo es um Geschäftsgeheimnisse, sensible Daten oder regulatorische Anforderungen geht, ist das eigene Haus der sicherste Ort. Lokale Sprachmodelle und generative KI sind heute leistungsfähig genug, um genau das möglich zu machen.

Daten bleiben im Haus

Kein Inhalt verlässt Ihr Netz - kein fremder Browser-Tab, keine Kopie.

Keine Fremdabhängigkeit

Unabhängig von außereuropäischen Cloud-Zwängen und wechselnden Preismodellen.

Volle Kontrolle

Modell, Daten und Betrieb liegen bei Ihnen - nachvollziehbar und planbar.

Der Anspruch

KI im Haus. Souveränität by design.

Lokale KI ist kein Bastelprojekt. Sie braucht das richtige Modell, die passende Hardware und einen sicheren Betrieb. Genau das richten wir ein - und begleiten es, damit es im Alltag trägt.

Ihre KI. Ihr Haus. Ihre Kontrolle.

So funktioniert es

Vom Modell zum sicheren Betrieb.

01

Modell wählenpassend zum Zweck - aus der geprüften Datenbank von Xient Trusted LLM.

02

Hardware dimensionierenvom Schreibtisch-Rechner bis zur Rechenzentrumsklasse.

03

Sicher in Betrieb nehmengehärtet, mit Identität, geringsten Rechten und Audit.

04

Für den Zweck optimierenfeinjustiert und überwacht - damit es liefert, was Sie brauchen.

Nicht das größte Modell. Das richtige.

Zwei kompakte NVIDIA DGX Spark KI-Rechner auf einem Schreibtisch

NVIDIA DGX Spark - ein kompakter KI-Rechner für den Schreibtisch. Ein Beispiel aus unserer Praxis, kein Verkaufsangebot.

Die Hardware

Vom Schreibtisch bis ins Rechenzentrum.

Leistungsstarke KI braucht nicht mehr zwingend die Cloud. Wir verkaufen keine Hardware - wir beraten und sprechen eine Empfehlung aus: welches Setup zu Ihrem Szenario passt und wie tief es in Ihre bestehenden Datensätze, Architekturen und Agenten integriert werden soll.

Vom Raspberry Pi als Proxy bis zur NVIDIA H200 kennen wir die ganze Bandbreite aus eigener Erfahrung. Sprechen Sie uns an - dann finden wir gemeinsam das richtige Setup und den passenden Integrationsgrad. Die Anbindung an SAP gibt es auf Wunsch immer dazu.

Drei Geräte als Orientierung - exemplarisch, nicht abschließend. Hardware ist bei uns fakultativ: Wir beraten, dimensionieren und begleiten den Betrieb - die Beschaffung bleibt bei Ihnen.

Einstieg

Raspberry Pi

Rolle: Routing & Gateway - verteilt Anfragen, schaltet vor, orchestriert. Hält selbst keine großen Modelle vor.
Für wen: Erste Schritte, Edge- und Vorschaltknoten.
Modelle (exemplarisch): Keine großen Sprachmodelle - allenfalls sehr kleine Hilfsmodelle. Zweck ist das Routing.
Parallelität: Als Gateway gedacht, nicht für die Inferenz großer Modelle.
Technik: Kompakter ARM-Einplatinenrechner.

Entwicklung am Schreibtisch

NVIDIA DGX Spark

Rolle: Prototyping, Feintuning und lokale Inferenz direkt am Arbeitsplatz.
Für wen: Einzelne Entwickler oder ein kleines Team.
Modelle (exemplarisch): Feintuning bis ~70 Mrd. Parameter, Inferenz bis ~200 Mrd. auf einem Gerät, bis ~405 Mrd. mit zwei gekoppelten Geräten - offene Modelle wie Llama, Mistral, Qwen oder DeepSeek.
Parallelität: Entwicklung und Validierung, einzelne Nutzer - kein Massen-Produktivbetrieb (die Speicherbandbreite begrenzt den Durchsatz).
Technik: GB10 Grace Blackwell, 128 GB Unified Memory, bis ~1 PFLOP (FP4).

Produktivbetrieb für viele

NVIDIA H200

Rolle: Produktiv-Inferenz im Rechenzentrum, für viele Anwender gleichzeitig.
Für wen: Mehrere Entwickler und viele gleichzeitige Anwender.
Modelle (exemplarisch): Große Sprachmodelle im Produktivbetrieb - z. B. ein 70-Mrd.-Modell vollständig auf einer Karte, Modelle jenseits 100 Mrd. Parameter, 405-Mrd.-Modelle über mehrere GPUs, dazu lange Kontexte und große Batches.
Parallelität: Viele parallele Anfragen; per MIG in isolierte Instanzen teilbar (mandantenfähig). Exemplarisch ~30.000 Token/s auf einem 70-Mrd.-Modell - theoretisch, je nach Modell und Stack.
Technik: Hopper, 141 GB HBM3e, 4,8 TB/s, bis ~4 PFLOPS (FP8); acht Karten (HGX) ≈ 32 PFLOPS.

Orientierung, keine Preisliste: exemplarische Werte nach Herstellerangaben - real abhängig von Modell, Quantisierung, Auslastung und Integrationstiefe. Vom Raspberry Pi über den DGX Spark bis zur H200-Klasse kennen wir diese Geräte und arbeiten aus eigener Erfahrung damit - wir empfehlen, was zu Ihrem Szenario passt, statt Geräte zu verkaufen.

So viel lokal wie möglich, so wenig Cloud wie nötig.

Unser Prinzip - damit Sie im KI-Governance-Umfeld so sparsam wie möglich bleiben.

Sicherheit

Optimal für den Zweck. Risiken im Griff.

Lokal heißt nicht automatisch sicher. Wir bringen die Disziplin mit, die ein produktiver KI-Betrieb braucht - vom geprüften Modell bis zur lückenlosen Nachvollziehbarkeit.

Geprüftes Modell

Es läuft nur, was über Xient Trusted LLM einen guten Trust Score hat - bekannte Herkunft, bewertete Risiken.

Gehärtete Umgebung

Abgesichert und isoliert aufgesetzt, nach den Prinzipien, die wir auch in der Cybersecurity anlegen.

Identität & geringste Rechte

Wer darf was - klar geregelt, statt offener Zugang für alle.

Audit & Monitoring

Nachvollziehbar im Betrieb: wer hat wann was genutzt, und läuft alles wie vorgesehen.

Welches Modell vertrauenswürdig ist, klärt Xient Trusted LLM. Wie wir den Betrieb absichern, zeigt die Cybersecurity.

Warum Xient

Beraten, aufgebaut, betrieben.

Lokale KI ist eine Frage von Auswahl, Architektur und Betrieb - genau unsere Disziplinen. Wir liefern nicht ein Stück, sondern den ganzen Weg. KI ist für uns kein Hype-Thema, sondern Handwerk, das wir selbst produktiv betreiben.

Auswahl

Das richtige Modell für Ihren Zweck - geprüft, nicht geraten.

Aufbau & Betrieb

Sicher in Betrieb genommen und im Alltag betreut.

Optimierung

Für Ihre Aufgaben feinjustiert - Leistung dort, wo sie zählt.

Eine starke KI im eigenen Haus - ausgewählt, sicher betrieben und auf Ihren Zweck optimiert.

Häufige Fragen

Was Entscheider zuerst fragen.

Bleiben unsere Daten wirklich im Haus?

Ja. Modell und Daten laufen auf Ihrer Hardware, in Ihrem Netz. Es gibt keinen Umweg über eine fremde Cloud und keine Kopie nach außen.

Welche Hardware brauchen wir?

Das hängt von Modell und Last ab - von einem kompakten KI-Rechner wie NVIDIA DGX Spark für den Schreibtisch bis zu Rechenzentrumsklasse. Wir dimensionieren passend zu Bedarf und Budget.

Welche Modelle laufen lokal?

Offene und quelloffene Sprachmodelle in verschiedenen Größen. Die passende Wahl treffen wir über die geprüfte Datenbank von Xient Trusted LLM.

Wie verhält sich das zu Xient Trusted LLM?

Xient Trusted LLM sagt, welchem Modell Sie vertrauen können. Xient Local LLM bringt genau dieses Modell sicher in Betrieb - im eigenen Haus, für Ihren Zweck optimiert.

Lohnt sich lokal gegenüber der Cloud?

Für sensible Daten, planbare Kosten und volle Kontrolle oft ja. Wir rechnen es ehrlich mit Ihnen durch, statt eine Richtung zu verkaufen.

Ihre KI gehört in Ihr Haus.

Wir wählen das richtige Modell, bringen es sicher in Betrieb und optimieren es für Ihren Zweck - souverän, nachvollziehbar, mit den Risiken im Griff.