Infrastruktur · För utvecklare

Hårdvaran
bakom AI.

Datorn, grafikkortet, modellprecisionen och datastacken. Det här är hörnstenarna när du själv börjar köra AI på egen hårdvara — för on-premise-lösningar, lokal modellträning eller seriös bildgenerering. Inte på engelska. Inte i broschyrspråk.

För utvecklarspåret · Pluggar du in i AI för första gången — börja i Ordlistan istället.
Del 1

Datorn själv

Tre saker avgör om en dator kan köra AI lokalt: processorn, grafikkortet och grafikkortets minne. Resten — RAM, SSD, kylning — har betydelse, men det är dessa tre som bestämmer vilka modeller du kan ladda och hur snabbt de svarar.

CPU (Central Processing Unit)

Datorns huvudprocessor. Hanterar operativsystem, applikationer och allt som inte är specialiserat. För AI är CPU:n sekundär — själva inferensen sker på GPU:n — men en svag CPU kan flaskhalsa databehandling, datainmatning och Python-kod runt modellen. AMD 9950X3D och Intel Core Ultra är topp-CPU:erna 2026 för AI-arbetsstationer.

Praktiskt

Daniel kör en AMD Ryzen 9 9950X3D i sin master-nod. 3D V-Cache hjälper för kompilering och datadestillering — men för ren AI-inferens skulle en billigare CPU ge samma resultat. Sätt budgeten på GPU:n, inte CPU:n.

GPU (Graphics Processing Unit)

Grafikkortet. Designat för att köra tusentals beräkningar parallellt — vilket råkar vara exakt vad AI-modeller behöver. En modern GPU är en AI-accelerator först, ett grafikkort i andra hand. NVIDIA dominerar AI-marknaden tack vare CUDA-ekosystemet; AMD och Intel jagar i kapp men ligger fortfarande efter på mjukvarustödet.

Praktiskt

För lokal AI 2026: NVIDIA RTX 5090 (konsumentflaggskepp), NVIDIA RTX 6000 Ada (proffs) eller en H100/H200 om budgeten är obegränsad. Köp aldrig en AMD GPU för AI om du inte vet exakt vad du gör — du kommer slåss mot ROCm hela tiden.

VRAM (Video RAM)

Det inbyggda arbetsminnet på ett grafikkort. Den enskilt viktigaste specifikationen för AI. En modell måste få plats i VRAM för att kunna köras — får den inte plats, går det helt enkelt inte. Llama 3.1 70B i full precision kräver 140 GB VRAM. Quantiserad till 4-bit ryms den på 40 GB. RTX 5090 har 32 GB, RTX 4090 har 24 GB.

Praktiskt

Tumregel: räkna ~2 GB VRAM per miljard parametrar i 4-bit. En 7B-modell ryms på 8 GB. En 32B-modell behöver ~20 GB. En 70B-modell behöver ~40 GB. Behöver du köra större — du måste antingen spara på precision (quantization) eller köpa flera GPU:er.

Del 2

AI-arbetsstationer

När en gaming-PC inte räcker längre. Specialdesignade datorer för AI-utveckling — med massiva mängder VRAM och unified memory som tillåter modeller långt utöver vad en RTX 5090 klarar. Här bor produktionsbygget, träningen och on-premise-leveransen.

NVIDIA RTX 5090

Världens snabbaste konsumentgrafikkort 2026. 32 GB GDDR7 VRAM, Blackwell-arkitektur. Sweet spot för utvecklare som vill köra 32B-modeller lokalt utan att gå till proffsklass. ~25 000-30 000 kr beroende på modell. Räcker till lokal Llama 3.1 70B (4-bit), Flux Dev bildgenerering, Whisper Large-v3 transkribering och Wan-videogenerering.

VRAM32 GB GDDR7
ArkitekturBlackwell
TDP575 W
Pris (2026)~25 000-30 000 kr

NVIDIA DGX Spark

NVIDIAs AI-arbetsstation för utvecklare — en kompakt "AI-dator" med GB10-arkitektur (Grace Blackwell) och 128 GB unified memory. Designad för att köra modeller upp till ~200B parametrar lokalt utan en datacenterbudget. Mellanrum mellan en hög-end PC och ett RTX 6000-rigg. Levereras runt 30 000-40 000 kr.

Minne128 GB unified
ArkitekturGB10 (Grace Blackwell)
KlusterbarJa (ConnectX-7)
Pris (2026)~30 000-40 000 kr
Praktiskt

För Hrafninn 2026: DGX Spark ersätter ett tidigare slave-kluster och blir dedikerad LLM-nod. Master-PC med RTX 5090 förblir för bild- och videogenerering. Två separata noder är ofta bättre än en monster-rigg — du undviker att kämpa om VRAM mellan jobben.

GB10 / Grace Blackwell

NVIDIAs nya systemarkitektur som driver DGX Spark och liknande arbetsstationer. Grace är CPU-delen (ARM-baserad, designad för AI-workload), Blackwell är GPU-delen. Tillsammans kallas de GB10. Det centrala draget: unified memory — CPU och GPU delar samma minne istället för att kopiera data fram och tillbaka. Resultatet är att stora modeller får plats i ett gemensamt minnespool.

Praktiskt

Detta är arkitekturen som låter en 128 GB-arbetsstation köra modeller som tidigare krävde 4-8 separata grafikkort. För team som inte vill bygga ett datacenter men behöver köra 70B+ modeller är det här genvägen.

AMD Ryzen 9 9950X3D

AMD:s flaggskepp-CPU för konsumentmarknaden 2026. 16 kärnor, 32 trådar, 3D V-Cache. För AI: aldrig flaskhalsen, men en utmärkt allround-CPU för en utvecklingsmaskin. Bättre val än Intel om du också vill spela eller kompilera tunga projekt parallellt.

Del 3

Modellprecision

Hur många decimaler en modells parametrar lagras med. Lägre precision = mindre filstorlek = snabbare körning = mindre VRAM-krav, men också (potentiellt) sämre kvalitet. Detta är knepet som låter dig köra en 70B-modell på en gaming-PC istället för en superdator.

FP16 (16-bit Floating Point)

Standardformatet för AI-modeller. Varje parameter lagras som ett 16-bitars flyttal. Bra balans mellan precision och storlek — det är vad de flesta modeller tränas i. En 7B-modell i FP16 tar ungefär 14 GB. För full precision finns FP32 (32-bit) men det används nästan aldrig längre i inferens — det är dubbelt så stort utan märkbar kvalitetsvinst.

NVFP4 (NVIDIA 4-bit Floating Point)

NVIDIAs nya 4-bitars format specifikt designat för Blackwell-arkitekturen (RTX 50-serien och DGX Spark). Pressar ihop modellens storlek till en fjärdedel av FP16 med nästan ingen kvalitetsförlust — och Blackwell-hårdvaran kör det i hårdvara, vilket ger dramatisk hastighetsökning jämfört med vanlig 4-bit quantization.

Praktiskt

För Llama 3.1 70B på RTX 5090: FP16 kräver 140 GB (omöjligt). 4-bit GGUF kräver 40 GB (knappt möjligt med svap). NVFP4 ryms i ~35 GB och kör 2-3x snabbare än vanlig 4-bit. Det är formatet som låter dig köra en frontier-modell på en gaming-PC.

Quantization (4-bit, 8-bit)

Den generella metoden för att komprimera modeller från FP16 till 8-bit, 4-bit eller lägre. GGUF-formatet (llama.cpp) är de facto-standarden för distribution. Olika varianter — Q4_K_M, Q5_K_S, Q8_0 — representerar olika kompromisser mellan storlek, hastighet och kvalitet. Se även Quantization i Ordlistan.

Del 4

Datahantering på GPU

AI är inte bara modeller — det är också databehandlingen runt modellerna. När du jobbar med miljontals rader, miljarder transaktioner eller stora dokumentsamlingar räcker inte Pandas på en CPU. NVIDIAs RAPIDS-svit flyttar hela datapipelinen till GPU:n.

Apache Spark

Industristandarden för storskalig databehandling (Big Data). Open source, kör distribuerat över ett kluster. Hanterar dataset som inte ryms på en maskin genom att fördela arbetet på många. Används i finansiella institutioner, teleoperatörer, e-handel — överallt där data räknas i terabyte eller petabyte.

Praktiskt

Spark körs traditionellt på CPU-kluster. Med NVIDIA RAPIDS Accelerator för Spark kan samma jobb köras 5-50x snabbare på GPU:er — utan att ändra koden. Stora svenska bolag som Klarna och Spotify kör Spark i produktion.

NVIDIA RAPIDS

En open source-mjukvarusvit från NVIDIA som flyttar klassisk databehandling från CPU till GPU. Designad som drop-in-ersättning för välkända Python-bibliotek — du byter import pandas mot import cudf och får ofta 10-100x speedup. Består av flera moduler: cuDF, cuML, cuGraph, cuSpatial.

cuDF (GPU Pandas)

RAPIDS-modulen som ersätter Pandas. Samma API — DataFrames, filter, groupby, joins — men körs på GPU:n. För datavolymer över ~1 GB blir skillnaden enorm. För små dataset (under 100 MB) är Pandas faktiskt snabbare eftersom GPU-overhead inte hinner betala sig.

cuML (GPU Scikit-Learn)

RAPIDS-modulen som ersätter Scikit-Learn för klassisk maskininlärning (random forests, k-means, PCA, regression). Inte djupinlärning — det är PyTorch och TensorFlow:s domän. cuML är för "traditionell" ML som du gör innan eller efter LLM-steget i en pipeline.

cuGraph (GPU-grafanalys)

RAPIDS-modulen för nätverks- och grafanalys på GPU. Hittar mönster i transaktionsflöden, sociala nätverk, leveranskedjor. Vanliga användningsområden: bedrägeridetektering (vilka konton hänger ihop?), rekommendationssystem, kunskapsgrafer.

Pandas & Scikit-Learn

De klassiska Python-biblioteken för databearbetning och klassisk maskininlärning. Pandas (data manipulation) och Scikit-Learn (ML-algoritmer) är fundamentet i Python-ekosystemet — de fanns långt innan AI blev en konsumentprodukt och kommer fortsätta vara där länge efter. Körs på CPU. RAPIDS är NVIDIAs GPU-accelererade versioner av dessa — designade som drop-in-ersättningar för stora dataset.

Del 5

Nätverk i AI-kluster

När en arbetsstation inte räcker längre — och du börjar koppla ihop flera maskiner till ett kluster. Då räcker inte vanlig Ethernet. AI-träning och stora inferensjobb kräver extrem bandbredd och låg latens mellan noder, annars blir nätverket flaskhalsen.

ConnectX-7 (QSFP112)

NVIDIAs senaste höghastighetsnätverkskort, designat för AI-kluster. Levererar 400 Gbps över QSFP112-portar — ungefär 40 gånger snabbare än vanlig hemma-fiber. Används för att koppla ihop DGX-noder så de kan dela ut träning eller inferens över flera maskiner utan att nätverket blir bromsen.

Praktiskt

För 99 % av utvecklare är ConnectX-7 overkill. Det blir relevant när du klusterar två eller fler DGX Spark eller H100-noder — då måste sammankopplingen vara så snabb att den inte fördyrar matrismultiplikationen som ska distribueras. Tänk: ett AI-kluster är bara så snabbt som sin långsammaste länk.

Mån · Ons · Fre

Polaris i din inkorg —
måndag, onsdag, fredag — för alltid gratis.

Djupare analyser, praktiska genomgångar och det senaste från AI-fältet — på svenska. För dig som vill förstå mer än bara rubrikerna.

Gratis för alltid · avsluta när du vill