Hiina idufirma DeepSeek teatas oma tipptasemel tehisintellekti mudeli R1 destilleeritud versioonist, mis suudab töötada ühe videokaardiga selle asemel, et vajada tervelt kaheteist GPU-d nagu täisversioon.
G. Ostrov
Hiina ettevõte DeepSeek tegi olulise läbimurde tehisintellekti valdkonnas, esitledes oma arutlusvõimega mudeli R1 kompaktset versiooni. Uus mudel DeepSeek-R1-0528-Qwen3-8B loodi destilleerimismeetodil ja vajab märkimisväärselt vähem arvutusressursse võrreldes täismõõdulise versiooniga.
Tehnilised omadused ja eelised
Destilleeritud versioon põhineb Alibaba ettevõtte poolt mais 2025 välja antud mudelil Qwen3-8B. Vaatamata kompaktsele suurusele näitab uus mudel muljetavaldavaid tulemusi testimistes, ületades Google Gemini 2.5 Flash matemaatilises võrdlustestis AIME 2025 ja peaaegu võrdsustudes Microsoft Phi 4 Plus-iga testis HMMT.
Riistvara nõuded
Üks DeepSeek-R1-0528-Qwen3-8B peamisi eeliseid on minimaalsed riistvara nõuded. Pilvplatvormi NodeShift andmetel piisab mudeli töötamiseks ühest GPU-st 40-80 GB operatiivmäluga, näiteks Nvidia H100. Võrdluseks vajab täisversioon R1 umbes kaheteist GPU-d 80 GB mäluga igaüks.
Õppimisprotsess ja litsentsimine
Kompaktse mudeli loomisel kasutasid arendajad täismõõdulise R1 versiooni genereeritud teksti baasmudelit Qwen3-8B peenhäälestamiseks. Mudelit levitatakse lubava MIT litsentsi all, mis võimaldab selle vaba kommertslikku kasutamist.
Praktiline rakendamine
DeepSeek-R1-0528-Qwen3-8B sobib nii akadeemilisteks uuringuteks kui ka väikese mastaabiga mudelitele orienteeritud tööstusarenduseks. Mitu rakendust, sealhulgas LM Studio, on juba integreeritud selle mudeli API kaudu, muutes selle kättesaadavaks laiemale arendajate ringile.
DeepSeek ametlik veebileht: https://www.deepseek.com/
Probleemide korral kirjutage meile, aitame kiiresti ja kvaliteetselt!