AI Inference Engineer (all genders)

Exxeta • Frankfurt am Main, Karlsruhe, Leipzig, Mannheim, Stuttgart

Frankfurt am Main, Karlsruhe, Leipzig, Mannheim, Stuttgart

Als AI Inference Engineer baust du die technische Grundlage für produktive AI-Systeme in regulierten Umgebungen. Du entwickelst und betreibst LLM-Inferenzplattformen, die on-premises oder in privaten Cloud-Umgebungen laufen – sicher, skalierbar, beobachtbar und wirtschaftlich.

Du sorgst dafür, dass moderne Modelle nicht nur in einer Demo überzeugen, sondern unter realen Produktionsbedingungen zuverlässig funktionieren: mit sauberer GPU-Planung, niedriger Latenz, kontrollierten Kosten, belastbarem Monitoring und klar definierten Betriebsmodellen.

Was erwartet dich

  • Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen für Kunden mit hohen Anforderungen an Datensouveränität, Sicherheit und Betriebskontrolle – on-premises, in privaten Cloud-Umgebungen oder souveränen europäischen Cloud-Setups.
  • Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden überführst du AI-Use-Cases in den produktiven Betrieb.
  • Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.
  • Außerdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgrößen, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.
  • Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging
  • Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarchitekturen, Deployment-Templates und Betriebs-Playbooks und stärkst so unsere Applied-AI-Capability.

Was erwarten wir von dir

  • Persönlicher Background: Erfahrung in Platform Engineering, Cloud Infrastructure, MLOps, LLMOps, DevOps, Backend Engineering oder Machine Learning Engineering. Entscheidend ist deine Erfahrung im Aufbau und Betrieb produktiver Systeme und dein Antrieb zu schneller persönlicher Weiterentwicklung
  • Inference Engineering: Du verstehst die technischen und wirtschaftlichen Zusammenhänge moderner LLM-Inferenz, von Model-Serving und GPU-Auslastung über Quantisierung, Batching und KV-Cache-Management bis hin zu Latenz, Durchsatz und Kosten.
  • Cloud & Plattformen: Docker, Kubernetes, Helm, Terraform, CI/CD, Linux sowie Observability gehören für dich zum Arbeitsalltag.
  • AI-Verständnis: Du kannst Transformer-basierte Modelle wie LLMs und Embeddings einordnen und fundierte technische Entscheidungen für produktive AI-Systeme treffen.
  • Security & Governance: Themen wie Identitäten, Berechtigungen, Secrets, Logging, Auditierung und Compliance denkst du, insbesondere in regulierten Umgebungen, von Anfang an mit.
  • Kommunikation & Arbeitsweise: Du vermittelst komplexe technische Zusammenhänge verständlich, arbeitest pragmatisch und bewegst dich auch in dynamischen Projektumfeldern sicher.
  • Pluspunkt: Erfahrung mit vLLM, SGLang oder vergleichbaren Inference-Technologien, GPU-Clustern, souveränen Cloud- oder Private-Cloud-Umgebungen.
  • On the road: Du bist reisebereit und flexibel, unsere Kunden bundesweit vor Ort zu beraten.         
  • Let's talk: Du sprichst fließend Deutsch und Englisch - super, dann findest du dich bei Exxeta bestens zurecht

Warum Exxeta

Bei Exxeta entwickeln wir digitale Lösungen, die wirklich etwas verändern – in Unternehmen, Märkten und Köpfen. Über 1200 Kolleg:innen bringen dafür Technologie, Ideen und unterschiedliche Perspektiven zusammen. Was uns antreibt: Neugier, Teamspirit und der Anspruch, echten Impact zu schaffen. Hightech with a heartbeat eben.

Wir sind ein Zuhause für Menschen, die etwas bewegen wollen. Diversität und unterschiedliche Perspektiven bereichern unser Team. Haltung, Ideen und Lust aufs Machen - das zählt bei uns!

Bewirb dich jetzt!

Deine Kontaktperson

Sandra Walter

Senior Talent Acquisition Partner
 

Deine Benefits

An apple a day …

Kaffee, Tee, Cola, Obst – geht aufs Haus

Einfach mal weg?

Bei uns normal: 30 Tage Urlaub und dein Sabbatical

Flexibles Arbeiten

Ob Büro, Remote oder bei Kunden vor Ort? Deine Arbeitsweise gestaltet sich nach Kundenbedarf und Projektanforderung

Gut ausgestattet

Bei uns arbeitest du mit moderner Hardware. Extra Hardware leasen? Kein Problem

Immer mobil

Sportlich unterwegs: Wir bezuschussen dein (E-)Bike

Lifelong Learning

Workshops & Mentoring: Gemeinsam entwickeln wir uns weiter

Unvergessliche Events

Unsere Erfolge feiern wir am liebsten als Team

Versicherung inklusive

Bis zu 1200 Euro Zuschuss für deine Brille, Zähne oder Massage

Mitarbeitende treiben die Nachhaltigkeit von Unternehmen

Wenn wir bei Exxeta eines über Unternehmens-nachhaltigkeit gelernt haben, dann: sich gemeinsam mit den Mitarbeitenden auf den Weg zu machen und anzupacken. 

Zum Blogartikel
Mitarbeitende treiben die Nachhaltigkeit von Unternehmen
Daten: Der Schlüssel zu erneuerbaren Energien

Daten: Der Schlüssel zu erneuerbaren Energien

Die smarte Nutzung von Daten ist der Schlüssel zum Erfolg, wenn es um die schnelle Skalierung von erneuerbaren Energien geht. Im Interview mit unserem CTO Peter Heine und einem unserer Kunden schauen wir auf die besondere Bedeutung von Daten für den Weg zur Energiewende. 

Zum Interview

In nur 2 Minuten zur fertigen Bewerbung

Jetzt bewerben