AIVITY: GPU-Server und KI-Infrastruktur aus Zürich

Beitrag von

Luftaufnahme von Thun, Hauptsitz der Intronet GmbH (AIVITY)

·

Mit AIVITY ist ein weiterer Schweizer Anbieter im Markt für datensouveräne KI aktiv. Hinter der Marke steht die Intronet GmbH aus Thun, die GPU-Server und KI-Infrastruktur aus Zürich anbietet – inklusive AI Web Assistant und internem Mitarbeiter-Chat. Openstream gehörte zu den Beta-Testern und konnte die Plattform bereits vor dem öffentlichen Launch erproben.

Den Anbieter kennen wir nicht erst seit AIVITY: Diverse Magento- und WooCommerce-Websites unserer Kunden hosten wir seit Jahren auf der Enterprise Cloud-Infrastruktur von Intronet bzw. Trendhosting in Zürich. Performance und Support sind in unserer Erfahrung aussergewöhnlich schnell – ein wichtiger Hintergrund, vor dem wir das KI-Angebot einordnen.

Unternehmen und Standort

AIVITY ist die Produktmarke der Intronet GmbH mit Sitz in Thun. Das Unternehmen positioniert sich als Anbieter «sicherer GPU- und LLM-Infrastruktur für Entwickler und Unternehmen» und richtet sich an Organisationen mit hohen Anforderungen an Datenschutz, Performance und Datenkontrolle.

Illustration: GPU-Server und KI-Infrastruktur aus Zürich – Entwickler arbeitet mit Cloud und Servern
Illustration: VectorElements

Drei Kernprodukte

GPU-Server mit vorinstalliertem Ollama

Das Kernangebot besteht aus dedizierten und geteilten GPU-Servern, auf denen Large Language Models unter eigener Kontrolle betrieben werden können. Über das vorinstallierte Ollama-Framework lassen sich Modelle wie Llama, Qwen, DeepSeek und über 100 weitere Open-Source-Modelle sofort einsetzen. Anwendungen, die mit ChatGPT, Claude oder Perplexity entwickelt wurden, können laut Anbieter mit minimalem Aufwand auf die eigene Infrastruktur migriert werden.

AI Web Assistant

Der AI Web Assistant ist eine Chatbot-Lösung für Webseiten, die Inhalte aus Webseiten, Dokumentationen und PDF-Dateien semantisch erschliesst und in Gespräche einbindet. Quellen werden regelmässig synchronisiert. Das Produkt befindet sich aktuell in einer Betaphase mit ausgewählten Kunden.

AI-Chat für Mitarbeitende

Ergänzend bietet AIVITY ein internes Chat-Tool, mit dem Mitarbeitende über eine vertraute Oberfläche auf die selbst gehosteten Modelle zugreifen können – ohne dass Prompts oder Antworten an Dritte abfliessen.

Hardware und Pakete

Die GPU-Server sind in fünf Stufen verfügbar – vom Einstieg mit geteilter GPU bis zum Enterprise-Paket mit dedizierter Hardware und ohne Cold-Starts. Eingesetzt wird Hardware der aktuellen NVIDIA Blackwell-Generation.

PaketCHF/MonatGPU (VRAM)RAM / CPUStorageMax. Modellgrösse
Micro390RTX 4500 (32 GB, shared)24 GB / 10 Core50 GB~10 GB
Starter590RTX 4500 (32 GB, shared)48 GB / 15 Core50 GB~20 GB
Pro690RTX 6000 (96 GB, shared)48 GB / 15 Core100 GB~20 GB
Business990RTX 6000 (96 GB, shared)120 GB / 30 Core200 GB~50 GB
Enterprise1’490RTX 6000 (96 GB, dediziert)120 GB / 30 Core200 GB~50 GB

Preismodell

AIVITY setzt auf transparente, fixe Monatsbeträge ohne zusätzliche Gebühren für Tokens oder Rechenzeit. Die regulär anfallenden Einrichtungsgebühren von CHF 540 entfallen. Die Mindestlaufzeit beträgt einen Monat (Enterprise: sechs Monate). Sämtliche Pakete lassen sich 30 Tage kostenlos und unverbindlich testen.

Token-Kosten im Quervergleich

Illustration: Person sitzt mit Laptop und denkt über Token-Kosten nach
Illustration: ghariza mahavira

Da AIVITY mit Pauschalpreisen statt Token-Abrechnung arbeitet, lässt sich der Preis nicht direkt mit Managed-Inference-Anbietern wie Infomaniak oder Swisscom vergleichen. Wir haben deshalb fiktive Token-Kosten ausgerechnet, um eine Vergleichsbasis zu schaffen.

Annahmen

  • Konservative Auslastung: 30 % der Zeit aktiv (typisch für Unternehmenseinsatz mit Arbeitszeit-Spitzen und Antwortpausen)
  • Durchsatz Llama 3.1 8B (Q4) auf RTX 4500 Blackwell: ~100 Tokens/s
  • Durchsatz Llama 3.1 8B (Q4) auf RTX 6000 Blackwell: ~180 Tokens/s
  • Durchsatz Llama 3.3 70B (Q4) auf RTX 6000 Blackwell: ~30 Tokens/s
  • Pro Paket das grösste sinnvoll lauffähige Modell gemäss VRAM-/Storage-Limits
PaketPreis CHF/MtReferenzmodellTokens/Monat (geschätzt)CHF / Mio Tokens
Micro390Llama 3.1 8B~778 Mio~0.50
Starter590Llama 3.1 8B~778 Mio~0.76
Pro690Llama 3.1 8B~1’400 Mio~0.49
Business990Llama 3.3 70B~233 Mio~4.25
Enterprise1’490Llama 3.3 70B~233 Mio~6.39

Die Werte sind eine Modellrechnung von Openstream und kein offizielles Pricing. Tatsächliche Token-Kosten hängen stark von Auslastung, Modellwahl, Quantisierung und Kontextlänge ab. Bei höherer Auslastung – etwa bei Dauerlast einer produktiven RAG-Anwendung – sinken die effektiven Token-Kosten entsprechend.

Einordnung

Bei Llama 3.1 8B liegen die Pakete Micro und Pro mit rund CHF 0.50 pro Mio Tokens in derselben Liga wie Infomaniak (CHF 0.10–1.00) und tendenziell günstiger als die Token-Stufen von Swisscom (CHF 0.38 + CHF 1’000 Grundgebühr). Für Llama 3.3 70B wird AIVITY dagegen vergleichsweise teurer – wer ein 70B-Modell mit hohem Token-Volumen produktiv betreibt, ist mit Swisscom oder einem Hyperscaler unter Umständen besser bedient.

Der entscheidende Vorteil bleibt die Planbarkeit der Kosten: ein fixer Monatspreis statt schwankender Token-Abrechnung – attraktiv für Use Cases mit unklarem oder stark schwankendem Volumen.

Datenschutz und Infrastruktur

Der Betrieb erfolgt in einem Tier-IV-zertifizierten Rechenzentrum in Zürich – nach ISO 27001 und ISO 22301 zertifiziert und nur zehn Minuten vom Stadtzentrum entfernt. AIVITY wirbt mit dem Prinzip «Secure by Design»: Daten verbleiben unter Kundenkontrolle, der Anbieter unterliegt nicht dem US CLOUD Act.

Compliance und Zertifizierungen

Das Rechenzentrum betreibt ISO- und BS-zertifizierte Informations-Sicherheits-Management-Systeme und ist auf das Schweizer Bankenumfeld vorbereitet – konkret nach FINMA-RS 08/7 (Outsourcing Banken). Das ist für regulierte Branchen ein wichtiges Auswahlkriterium.

Energieeffizienz und Nachhaltigkeit

Eine modulare Architektur sorgt für eine optimierte PUE (Power Usage Effectiveness). Das Rechenzentrum in Zürich ist CO₂-neutral, myclimate®-zertifiziert und arbeitet zu 100 % mit erneuerbarer Energie.

Fazit: Für wen lohnt sich AIVITY?

Illustration: Entwickler arbeitet am Laptop mit selbst gehostetem LLM
Illustration: Yovita Frederica Widjaja

AIVITY positioniert sich zwischen einem klassischen Managed-Inference-Angebot wie jenem von Infomaniak und einer projektbasierten GPU-Cloud wie Phoenix Systems. Das Modell «fixer Monatspreis statt Token-Abrechnung» ist für Unternehmen interessant, die Kosten planbar halten und gleichzeitig die volle Kontrolle über Modelle und Daten behalten wollen. Wer ein konkretes LLM produktiv selbst hosten möchte, ohne sich mit GPU-Beschaffung oder Token-Limits zu beschäftigen, findet mit den GPU-Servern und der KI-Infrastruktur aus Zürich einen pragmatischen Einstiegspunkt aus der Schweiz.

Den vollständigen Marktüberblick haben wir im Beitrag Schweizer KI-Anbieter im Vergleich zusammengefasst.

Beitragsbild Thun von Daniel Vogel.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Let's stay in touch!