Mit AIVITY ist ein weiterer Schweizer Anbieter im Markt für datensouveräne KI aktiv. Hinter der Marke steht die Intronet GmbH aus Thun, die GPU-Server und KI-Infrastruktur aus Zürich anbietet – inklusive AI Web Assistant und internem Mitarbeiter-Chat. Openstream gehörte zu den Beta-Testern und konnte die Plattform bereits vor dem öffentlichen Launch erproben.
Den Anbieter kennen wir nicht erst seit AIVITY: Diverse Magento- und WooCommerce-Websites unserer Kunden hosten wir seit Jahren auf der Enterprise Cloud-Infrastruktur von Intronet bzw. Trendhosting in Zürich. Performance und Support sind in unserer Erfahrung aussergewöhnlich schnell – ein wichtiger Hintergrund, vor dem wir das KI-Angebot einordnen.
Inhalt
Unternehmen und Standort
AIVITY ist die Produktmarke der Intronet GmbH mit Sitz in Thun. Das Unternehmen positioniert sich als Anbieter «sicherer GPU- und LLM-Infrastruktur für Entwickler und Unternehmen» und richtet sich an Organisationen mit hohen Anforderungen an Datenschutz, Performance und Datenkontrolle.

Drei Kernprodukte
GPU-Server mit vorinstalliertem Ollama
Das Kernangebot besteht aus dedizierten und geteilten GPU-Servern, auf denen Large Language Models unter eigener Kontrolle betrieben werden können. Über das vorinstallierte Ollama-Framework lassen sich Modelle wie Llama, Qwen, DeepSeek und über 100 weitere Open-Source-Modelle sofort einsetzen. Anwendungen, die mit ChatGPT, Claude oder Perplexity entwickelt wurden, können laut Anbieter mit minimalem Aufwand auf die eigene Infrastruktur migriert werden.
AI Web Assistant
Der AI Web Assistant ist eine Chatbot-Lösung für Webseiten, die Inhalte aus Webseiten, Dokumentationen und PDF-Dateien semantisch erschliesst und in Gespräche einbindet. Quellen werden regelmässig synchronisiert. Das Produkt befindet sich aktuell in einer Betaphase mit ausgewählten Kunden.
AI-Chat für Mitarbeitende
Ergänzend bietet AIVITY ein internes Chat-Tool, mit dem Mitarbeitende über eine vertraute Oberfläche auf die selbst gehosteten Modelle zugreifen können – ohne dass Prompts oder Antworten an Dritte abfliessen.
Hardware und Pakete
Die GPU-Server sind in fünf Stufen verfügbar – vom Einstieg mit geteilter GPU bis zum Enterprise-Paket mit dedizierter Hardware und ohne Cold-Starts. Eingesetzt wird Hardware der aktuellen NVIDIA Blackwell-Generation.
| Paket | CHF/Monat | GPU (VRAM) | RAM / CPU | Storage | Max. Modellgrösse |
|---|---|---|---|---|---|
| Micro | 390 | RTX 4500 (32 GB, shared) | 24 GB / 10 Core | 50 GB | ~10 GB |
| Starter | 590 | RTX 4500 (32 GB, shared) | 48 GB / 15 Core | 50 GB | ~20 GB |
| Pro | 690 | RTX 6000 (96 GB, shared) | 48 GB / 15 Core | 100 GB | ~20 GB |
| Business | 990 | RTX 6000 (96 GB, shared) | 120 GB / 30 Core | 200 GB | ~50 GB |
| Enterprise | 1’490 | RTX 6000 (96 GB, dediziert) | 120 GB / 30 Core | 200 GB | ~50 GB |
Preismodell
AIVITY setzt auf transparente, fixe Monatsbeträge ohne zusätzliche Gebühren für Tokens oder Rechenzeit. Die regulär anfallenden Einrichtungsgebühren von CHF 540 entfallen. Die Mindestlaufzeit beträgt einen Monat (Enterprise: sechs Monate). Sämtliche Pakete lassen sich 30 Tage kostenlos und unverbindlich testen.
Token-Kosten im Quervergleich

Da AIVITY mit Pauschalpreisen statt Token-Abrechnung arbeitet, lässt sich der Preis nicht direkt mit Managed-Inference-Anbietern wie Infomaniak oder Swisscom vergleichen. Wir haben deshalb fiktive Token-Kosten ausgerechnet, um eine Vergleichsbasis zu schaffen.
Annahmen
- Konservative Auslastung: 30 % der Zeit aktiv (typisch für Unternehmenseinsatz mit Arbeitszeit-Spitzen und Antwortpausen)
- Durchsatz Llama 3.1 8B (Q4) auf RTX 4500 Blackwell: ~100 Tokens/s
- Durchsatz Llama 3.1 8B (Q4) auf RTX 6000 Blackwell: ~180 Tokens/s
- Durchsatz Llama 3.3 70B (Q4) auf RTX 6000 Blackwell: ~30 Tokens/s
- Pro Paket das grösste sinnvoll lauffähige Modell gemäss VRAM-/Storage-Limits
| Paket | Preis CHF/Mt | Referenzmodell | Tokens/Monat (geschätzt) | CHF / Mio Tokens |
|---|---|---|---|---|
| Micro | 390 | Llama 3.1 8B | ~778 Mio | ~0.50 |
| Starter | 590 | Llama 3.1 8B | ~778 Mio | ~0.76 |
| Pro | 690 | Llama 3.1 8B | ~1’400 Mio | ~0.49 |
| Business | 990 | Llama 3.3 70B | ~233 Mio | ~4.25 |
| Enterprise | 1’490 | Llama 3.3 70B | ~233 Mio | ~6.39 |
Die Werte sind eine Modellrechnung von Openstream und kein offizielles Pricing. Tatsächliche Token-Kosten hängen stark von Auslastung, Modellwahl, Quantisierung und Kontextlänge ab. Bei höherer Auslastung – etwa bei Dauerlast einer produktiven RAG-Anwendung – sinken die effektiven Token-Kosten entsprechend.
Einordnung
Bei Llama 3.1 8B liegen die Pakete Micro und Pro mit rund CHF 0.50 pro Mio Tokens in derselben Liga wie Infomaniak (CHF 0.10–1.00) und tendenziell günstiger als die Token-Stufen von Swisscom (CHF 0.38 + CHF 1’000 Grundgebühr). Für Llama 3.3 70B wird AIVITY dagegen vergleichsweise teurer – wer ein 70B-Modell mit hohem Token-Volumen produktiv betreibt, ist mit Swisscom oder einem Hyperscaler unter Umständen besser bedient.
Der entscheidende Vorteil bleibt die Planbarkeit der Kosten: ein fixer Monatspreis statt schwankender Token-Abrechnung – attraktiv für Use Cases mit unklarem oder stark schwankendem Volumen.
Datenschutz und Infrastruktur
Der Betrieb erfolgt in einem Tier-IV-zertifizierten Rechenzentrum in Zürich – nach ISO 27001 und ISO 22301 zertifiziert und nur zehn Minuten vom Stadtzentrum entfernt. AIVITY wirbt mit dem Prinzip «Secure by Design»: Daten verbleiben unter Kundenkontrolle, der Anbieter unterliegt nicht dem US CLOUD Act.
Compliance und Zertifizierungen
Das Rechenzentrum betreibt ISO- und BS-zertifizierte Informations-Sicherheits-Management-Systeme und ist auf das Schweizer Bankenumfeld vorbereitet – konkret nach FINMA-RS 08/7 (Outsourcing Banken). Das ist für regulierte Branchen ein wichtiges Auswahlkriterium.
Energieeffizienz und Nachhaltigkeit
Eine modulare Architektur sorgt für eine optimierte PUE (Power Usage Effectiveness). Das Rechenzentrum in Zürich ist CO₂-neutral, myclimate®-zertifiziert und arbeitet zu 100 % mit erneuerbarer Energie.
Fazit: Für wen lohnt sich AIVITY?

AIVITY positioniert sich zwischen einem klassischen Managed-Inference-Angebot wie jenem von Infomaniak und einer projektbasierten GPU-Cloud wie Phoenix Systems. Das Modell «fixer Monatspreis statt Token-Abrechnung» ist für Unternehmen interessant, die Kosten planbar halten und gleichzeitig die volle Kontrolle über Modelle und Daten behalten wollen. Wer ein konkretes LLM produktiv selbst hosten möchte, ohne sich mit GPU-Beschaffung oder Token-Limits zu beschäftigen, findet mit den GPU-Servern und der KI-Infrastruktur aus Zürich einen pragmatischen Einstiegspunkt aus der Schweiz.
Den vollständigen Marktüberblick haben wir im Beitrag Schweizer KI-Anbieter im Vergleich zusammengefasst.
Beitragsbild Thun von Daniel Vogel.

Schreibe einen Kommentar