Lokālais mākslīgais intelekts mobilajā NPU: ko tas patiesībā dara un cik tālu tas sniedzas

  • Mobilā SoC NPU ir specializēts neironu tīkla paātrinātājs, kas papildina centrālo procesoru un grafisko procesoru, piedāvājot lielāku veiktspēju uz vatu mākslīgā intelekta uzdevumos.
  • Vietējais mākslīgais intelekts samazina latentumu un uzlabo privātumu, apstrādājot datus ierīcē, taču to ierobežo RAM, siltums, akumulators un modeļu izmērs, ko tas var apstrādāt.
  • Ražotāji integrē arvien jaudīgākus neironu procesorus (NPU) mobilajos tālruņos, datoros un automašīnās, taču daudzas lietotnes joprojām pilnībā neizmanto tos, tāpēc centrālais procesors (CPU) un grafiskais procesors (GPU) turpina veikt lielāko daļu darba.
  • Tuvākajā nākotnē tiks ieviests hibrīda modelis: daļa mākslīgā intelekta darbojas lokāli NPU, bet daļa — mākonī, līdzsvarojot ātrumu, modeļa kvalitāti un patēriņu.

Vietējais mākslīgais intelekts mobilajā NPU

Ideja par modeļa izveidi Jaudīgs mākslīgais intelekts, kas darbojas tieši mobilajās ierīcēs Būt bez mākoņpakalpojumiem izklausās lieliski… līdz brīdim, kad to praktiski izmēģini. Ja tev ir Galaxy S24 Ultra, lejupielādēji tādus modeļus kā Qwen 3.5 4B un palaid tos ar tādām lietotnēm kā PocketPal, Offgrid vai ChatterUI, tu saskarsies ar mazāk krāšņu realitāti: 4 žetoni sekundēMūžīgi laiki līdz pirmā tokena ieraudzīšanai, termināļa pārkaršanai un sajūtai, ka tavs super SoC ne tuvu neizspiež savu NPU, kā solīja mārketings.

Vienlaikus nozarē pastāvīgi tiek runāts par NPU, lokālais mākslīgais intelekts, Copilot dators, Apple neironu dzinējs Un tā tālāk. Ražotāji jau gadiem ilgi savos sistēmas čipos (SoC) ir iestrādājuši mākslīgā intelekta paātrinātājus gan tālruņos, gan klēpjdatoros, apliecinot, ka tie ir personālo datoru nākotne. Problēma ir tā, ka ar tik daudz akronīmiem un solījumiem ir viegli apmaldīties: ko īsti dara tālruņa neironu procesors (NPU)? Kāpēc dažreiz šķiet, ka centrālais procesors (CPU) darbojas labāk? Kad ir jēga izmantot mākonī balstītu mākslīgo intelektu un kad ir vērts paļauties uz lokālo mākslīgo intelektu?

Kas īsti ir NPU mobilajā SoC un kāda ir tā loma lokālajā mākslīgajā intelektā?

Mūsdienu viedtālrunī tā sauktais “procesors” patiesībā ir SoC (sistēma uz mikroshēmas)Uz viena un tā paša silīcija mikroshēmas atrodas centrālais procesors (CPU), grafiskais procesors (GPU), interneta pakalpojumu sniedzējs (ISP), modems, drošības ierīces… un jau dažus gadus arī neironu procesors (NPU) jeb neironu dzinējs, kas paredzēts mākslīgajam intelektam. Tas neaizstāj centrālo procesoru (CPU) vai grafisko procesoru (GPU): tas tos papildina ļoti specifiska veida darbam.

NPU (Neironu apstrādes vienībaTas ir aparatūras bloks, kas paredzēts neironu tīklu darbināšanai milzīgā ātrumā: tūkstošiem reizināšanas un saskaitīšanas operāciju paralēli, ar zemas precizitātes datiem (INT8, FP16, pat INT4) un ar ļoti nelielu atmiņas apjomu, lai netērētu laiku svaru pārvietošanai un aktivizēšanai. Tas nevar "izdarīt pa druskai no visa", kā to dara centrālais procesors (CPU), bet to, ko tas var izdarīt, tas dara ar brutālu efektivitāti.

Šī specializācija lieliski iederas gandrīz visā, ko mēs mūsdienās saprotam kā mākslīgo intelektu: datorredzeRunas atpazīšana, attēlu klasifikācija, tulkošana, valodas modelēšana un kopumā jebkurš mūsdienīgs neironu tīkls. Tā vietā, lai katram mākslīgā intelekta uzdevumam pārslogotu centrālo procesoru vai ieslēgtu grafisko procesoru (GPU), sistēma nosūta šīs darbības uz neironu procesoru (NPU), kas tās veic ar mazāku enerģijas patēriņu un mazāku siltumu.

Patiesībā vairums lielāko ražotāju savus NPU apraksta šādos terminos. Qualcomm runā par lielāka veiktspēja uz vatu mākslīgā intelekta darba slodzēm; Huawei to pārdod kā atslēgu, lai paveiktu vairāk īsākā laikā, neiztukšojot akumulatoru; Apple to definē kā GPU līdzīgu dzinēju, lai paātrinātu matricu konvolūcijas un reizināšanas; AMD un Intel to integrē savos procesoros, lai atbrīvotos no mazjaudas mākslīgā intelekta uzdevumiem, savukārt Samsung uzstāj, ka tā neironu procesors ir optimizēts vienlaicīgām matricu operācijām un nepārtrauktai mācīšanai ar uzkrātajiem datiem.

NPU: ne jauni, ne ekskluzīvi mobilajām ierīcēm

Var šķist, ka NPU ir parādījušies no nekurienes Ņemot vērā ažiotāžu ap ģeneratīvo mākslīgo intelektu (AI), realitāte ir tāda, ka mēs jau gandrīz desmit gadus dzīvojam ar to kabatā, pat to neapzinoties. 2017. gadā Apple izlaida iPhone X ar Face ID un Animoji, pateicoties tā A11 Bionic mikroshēmai, kurai jau bija īpašs "neironu dzinējs", lai gan tolaik tikai retais pievērsa uzmanību šim nosaukumam.

Kopš tā laika Apple ir uzpūtis šo Apple neironu dzinēju paaudzi pēc paaudzes. iPhone X ANE bija aptuveni... 0,6 TOPS (triljoni darbību sekundē) FP16. Mūsdienās iPhone 15 Pro iebūvētais A17 Pro procesors ir aptuveni 35 TOPS, bet iPad un Mac M4 mikroshēma sasniedz aptuveni 38 TOPS. Tas nozīmē, ka dažu gadu laikā esam pārgājuši no "token" neironu dzinēja uz tādu, kas spēj darbināt modeļus, kurus iepriekš redzējām tikai datu centros.

Google ir paveicis kaut ko līdzīgu savā pusē ar TPU (tensora apstrādes vienība)Vispirms savos datu centros ar milzu mikroshēmām neironu tīklu apmācībai un pēc tam Pixel tālruņos ar Google Tensor saimi (Pixel 6, 7, 8…). Tur viņi integrē TPU/NPU SoC, lai ierīcē iekļautu kameras, balss un arvien vairāk arī ģeneratīvās mākslīgā intelekta funkcijas.

Datoru pasaulē Intel un AMD ir nācies pastiprināt savu sniegumu. Intel iekļauj NPU savos Core Ultra (Meteor Lake) procesoros ar aptuveni 8–12 TOPS, savukārt AMD debitēja ar Ryzen AI savos Ryzen 7040 klēpjdatoru procesoros ar līdz pat 10 TOPS un pat sasniedza 39 NPU TOPS īsā Ryzen 8000 galddatoru procesoru sērijā. Ideja ir tāda pati: mākslīgā intelekta pāreja uz perifēriju un nebūt tik ļoti atkarīgam no mākoņpakalpojumiem visā.

Kā darbojas NPU: kāpēc tas ir tik labs mākslīgajam intelektam… un tik slikts visam pārējam

Ja mēs garīgi atveram mikroshēmu, NPU izskatās vairāk kā matricu reizināšanas fabrika nekā klasisks centrālais procesors. Dažu ļoti daudzpusīgu kodolu vietā tam ir desmitiem tūkstošu vienkāršu ALU, kas sakārtoti matricā vai tīklā un spēj paralēli veikt "reizināšanas-uzkrāšanas" (MAC) produktus, bieži vien ar zemu precizitāti.

Nokia prognozē mobilo tālruņu pazušanu pirms 2030. gada

Knifs ir organizēt šīs vienības kā sava veida sistoliskā matricaDati ienāk vienā pusē, pāriet no šūnas uz šūnu, un katra šūna veic savu nelielo darbību, pirms rezultāta nodošanas nākamajai. Tas samazina piekļuvi operatīvajai atmiņai un palielina MAC vienību izmantošanu, kas ir tieši tas, kas neironu tīklam ir nepieciešams secinājumu izdarīšanai.

Lai sasniegtu šo efektivitāti, NPU atsakās no daudzām funkcijām, kas sadārdzina centrālo procesoru vai grafisko procesoru: tam trūkst sarežģītas zaru paredzēšanas loģikas, sarežģītas kešatmiņas sistēmas un atbalsta visām vispārējas nozīmes instrukcijām. Tā ISA parasti ir minimāls. DMA datu, punktu reizinājumu, summu, aktivāciju un maz kas cits pārvietošanai.

Viņš arī spēlējas ar skaitliskā precizitāteKamēr tradicionālais centrālais procesors vai grafiskais procesors ērti darbojas 32 bitu vai 64 bitu peldošā komata vienībās, neironu procesors (NPU) parasti darbojas INT8, FP16 un pat INT4 vidē. Apmācītam neironu tīklam šāds precizitātes līmenis ir pietiekams, lai nodrošinātu izcilus rezultātus, ļaujot veikt ievērojami vairāk operāciju vienā ciklā ar daudz mazāku enerģijas patēriņu vienā operācijā.

CPU, GPU, NPU un TPU: kas ko dara mākslīgajā intelektā

Centrālais procesors (CPU) joprojām ir "vispārējās smadzenes": tas pārvalda operētājsistēmu, koordinē uzdevumus un izpilda vadības loģiku. Tas spēj darbināt mazus modeļus, taču, kad tam tiek lūgts apstrādāt lielu tīklu vai uzturēt ilgstošu teksta ģenerēšanu, tas kļūst par latentuma un enerģijas patēriņa sašaurinājumu.

GPU ir darba zirgs dziļa mācīšanāsTas ļoti labi pārveido grafikas renderēšanas darbu (daudzas līdzīgas darbības ar lieliem vektoriem) neironu tīklu apmācībā un darbināšanā. Mūsdienu GPU ietver arī tenzoru kodoli specifiski, kas praksē uzvedas kā mazi NPU pašā GPU.

Savukārt neironu procesors (NPU) ir paredzēts tikai mākslīgā intelekta secinājumiem. Tas nav piemērots spēlēm, saskarņu renderēšanai vai koda kompilēšanai, taču tas ir ideāli piemērots redzes, balss vai valodas tīklu darbināšanai ar energoefektivitāti, ko GPU nevar nodrošināt mobilajā tālrunī vai īpaši vieglā klēpjdatorā.

Google TPU ir tuvs brālēns: ASIC, kas koncentrējas uz tenzoru operācijām, lai paātrinātu mākslīgā intelekta modeļus, īpaši datu centros. Piemēram, Edge TPU uz Coral Dev plates piedāvā dažas... 4 TOPS ar tikai dažiem vatiemIdeāli piemērots kamerām un lietu interneta (IoT) ierīcēm, kurām nepieciešama reāllaika datorredze, nepārkarstot vai nepatērējot pārāk daudz enerģijas.

Rezumējot, ideāla kombinācija mūsdienu ierīcē ir: CPU vispārīgai loģikai, GPU grafikas darba slodzēm un elastīgai paralēlai skaitļošanai, un NPU/TPU neironu tīkliemKatrs dara savu lietu, un, ja programmatūra ir labi uzrakstīta, sistēma diezgan inteliģenti sadala darbu.

Mākoņa mākslīgais intelekts salīdzinājumā ar lokālo mākslīgo intelektu: ātrums, privātums un izmaksas

Līdz pavisam nesenam laikam gandrīz viss, ko mēs saistījām ar "spēcīgu mākslīgo intelektu", notika mākonī: ChatGPT, Gemini, Stable Diffusion, uzlaboti asistenti… Mobilie tālruņi darbojās tikai kā mēms terminālis kas nosūtīja datus un saņēma apstrādātu atbildi serverī, kas pilns ar GPU vai TPU.

Šai arhitektūrai ir acīmredzama priekšrocība: jūs varat darbināt gigantiskus modeļus, neuztraucoties par gala lietotāja enerģijas patēriņu. Lēta zemas klases ierīce un augstākās klases flagmanis iegūst vienādu rezultātu, jo smago darbu veic procesors. datu centrs ar speciālu aparatūru.

Bet tam ir arī ievērojami trūkumi. latentums Tas ir pilnībā atkarīgs no savienojuma: ja jums ir slikts pārklājums, atrodaties lidmašīnā vai pilsētā ar neuzticamu ADSL savienojumu, daudzas funkcijas vairs nav "maģiskas" un kļūst pilnīgi bezjēdzīgas. Turklāt katrs pieprasījums prasa datu nosūtīšanu trešajām personām un paļaušanos, ka tie tiks pareizi apstrādāti.

Mākoņdatošana

Vietējais mākslīgais intelekts spēlē tieši pretēju spēli: nogādājiet modeli ierīcē un palaist secinājumus ierīces pašas centrālajā procesorā, grafiskajā procesorā vai neironu procesorā. Tas novērš tīkla latentumu, iespējo bezsaistes mākslīgo intelektu un, pats galvenais, padara to jūsu datiem nav jāatstāj tālruņa robeža, klēpjdatoru vai automašīnu, ja vien jūs to nevēlaties.

Tomēr lokālo mākslīgo intelektu ierobežo tas, ko aparatūra spēj apstrādāt: RAM, VRAM, termiskā jauda, ​​akumulatorsModelis ar 70.000 miljardiem parametru mūsdienās ērti neietilpst tālrunī; ja vēlamies kaut ko plūstošu un ilgtspējīgu, mums jāizmanto samazinātas, kvantizētas un ļoti optimizētas versijas.

Mobilie neironu procesori (NPU): no kameras līdz asistentam, ieskaitot lokālos tiešsaistes komunikatorus (LLM)

Viedtālruņu pasaulē NPU gadiem ilgi klusi strādā pie visa, kas saistīts ar mobilā fotografēšana un video, sejas atpazīšana, balss un tulkošana. Ražotāji ir pievienojuši arī citas funkcijas.

Apple ekosistēmā neironu dzinējs apstrādā sejas atpazīšanu, sejas un objektu noteikšanu galerijā, diktēšanu, tiešraides tulkošanu, teksta atpazīšanu attēlos, papildināto realitāti un virkni citu uzdevumu, ko mēs uzskatām par pašsaprotamiem. Ar A16, A17 un M3/M4 saimi Apple sāk veikt pasākumus, lai... Siri un citas ģeneratīvās mākslīgā intelekta funkcijas darbojas pašā ierīcē. bez tik lielas atkarības no mākoņa, izmantojot šos 30–40 TOPS neironu dzinējus.

Google ar saviem Tensor G2 un G3 paveic kaut ko līdzīgu Pixel tālrunī. Pixel 8 ar savu Integrēts TPU, var palaist samazinātas modeļu versijas, piemēram, PaLM 2 vai Dvīņi Nano ierīcē tādiem uzdevumiem kā tulkošana, tīmekļa vietņu skaļa lasīšana, lokālie kopsavilkumi, vienmērīgāka balss rakstīšana vai kameras triki, piemēram, Best Take un Audio Magic Eraser, un tas viss ar mikroshēmu darbojas bez nepieciešamības pastāvīgi sūtīt datus uz serveriem.

Savukārt Qualcomm jau vairākas paaudzes Snapdragon sērijā izmanto Hexagon NPU dzinējus. Snapdragon 8 3. paaudzes procesors lepojas ar NPU, kas ir par 98 % ātrāks nekā 2. paaudzes procesors un spēj darboties LLM ar līdz pat 10.000 miljardiem parametru pašā mobilajā ierīcē, ar publiskām demonstrācijām par stabilu difūziju, kas ģenerē attēlus lielā ātrumā, un Llama 2 vai Llama 3 darbību pilnībā bezsaistē.

MediaTek neatpaliek ar saviem APU (AI procesoru blokiem) Dimensity sērijā, sasniedzot tādus uzdevumus kā ar sestās paaudzes APU reāllaika AI fotoattēlu pārveidošana mobilajos tālruņos, piemēram, Oppo Find X8, un norādot uz to, ka šī pati NPU tehnoloģija nonāks televizoros, lietu internetā un pat automobiļos.

Kas notiek datoros un automašīnās ar NPU

Personālo datoru jomā Microsoft ir laidis klajā kategoriju "Dators ar mākslīgo intelektu" Balstoties uz Intel, AMD un Qualcomm SoC integrētajiem neironu procesoriem (NPU), Intel Core Ultra (Meteor Lake) ietver aptuveni 8–12 TOPS NPU, lai paātrinātu tādas Windows 11 funkcijas kā fona izpludināšana, sintētiskais acu kontakts, trokšņu samazināšana un nākotnē arī daļas no Copilot.

AMD debitēja ar Ryzen AI klēpjdatoriem paredzētajā Ryzen 7040 sērijā un īsi arī Ryzen 8000 sērijas galddatoros ar NPU līdz 39 TOPS. Lai gan šī pieeja ir pielāgota, vēstījums ir skaidrs: Nākotnes datoram vienmēr būs paredzēts mākslīgā intelekta bloks., tāpat kā tam jau gadiem ilgi ir bijusi integrēta GPU.

Automobiļu rūpniecībā lietas kļūst daudz attīstītākas. Tesla ir divas pilnībā pašbraucošas aparatūras paaudzes ar diviem neironu procesoriem (NPU): HW3 bija aptuveni 144 TOPS, un HW4 ir aptuveni 200–250 TOPS, un tas viss, lai reāllaikā apstrādātu signālus no daudzām kamerām un sensoriem un darbinātu neironu tīklus, kas pieņem braukšanas lēmumus dažu milisekundžu laikā.

NVIDIA ar savu Drive Thor platformu sper vēl vienu lēcienu: viena mikroshēma var sasniegt pat 1000 TOPS vai 2000 TOPS ar diviem savienotiemTas ir izstrādāts, lai centralizētu gan autonomo braukšanu, gan salonā esošo mākslīgo intelektu (balss asistentus, vadītāja uzraudzību, izklaidi utt.). Filozofija ir tāda pati: jo vairāk mākslīgā intelekta vēlaties integrēt automašīnā reāllaikā, jo lielāka jēga ir atsevišķam akseleratoram transportlīdzeklī.

Papildus privātajām automašīnām NPU dominē arī drošības kamerās, dronos un robotos: tādas ierīces kā Hailo-8 (26 TOPS ar mazu jaudu) vai Intel Myriad un Google Edge TPU ļauj datorredze perifērijā nepārslogojot tīklus vai datu centrus.

Vietējais mākslīgais intelekts "īstajā" mobilajā tālrunī: PocketPal, MNN Chat un citi

mnn-čats

Papildus ražotāja noteiktajām funkcijām arvien vairāk lietotāju vēlas palaist savus valodu modeļus lokāli Savā mobilajā ierīcē, neizmantojot ChatGPT, Gemini vai līdzīgas lietotnes. Šeit noder tādas lietotnes kā PocketPal, Offgrid, ChatterUI vai MNN Chat.

PocketPal ir viens no pieejamākajiem. Tas ļauj lejupielādēt atvērtā koda modeļus (Llama, Gemma, Phi, Qwen, Mistral…) kompaktos formātos, piemēram, GGUF, un palaist tos tieši tālrunī bezsaistē. pilnīga privātumsUzvednes un atbildes nekad nepamet ierīci. Viss, kas jums nepieciešams, ir samērā moderns Android vai iOS mobilais tālrunis, dažas 6–8 GB RAM un vairāki gigabaiti brīvas vietas modeļiem.

Praksē modeļi ar parametriem no 1B līdz 4B (piemēram, Qwen2.5-1.5B, Llama 3.2 3B vai Qwen3-4B-Instruct) darbojas samērā labi vidējas klases tālruņos. Tomēr tipiska veiktspēja parasti ir no 5 un 20 žetoni sekundē augstas klases serveros un vēl jo mazāk zemākas klases serveros, kas ir tālu no tā, ko var sasniegt serverī ar profesionālu GPU.

Lai iegūtu papildu veiktspēju, iPhone tālruņos ieteicams izmantot Metal un palielināt GPU slāņu skaitu; Android ierīcēs dažas lietotnes sāk to izmantot. Vulkan, GPU un retos gadījumos NPU, izmantojot NNAPIPat ja tā, daudzos no šiem risinājumiem reālā slodze joprojām gulstas uz centrālo procesoru un grafisko procesoru (GPU), un neironu procesors (NPU) joprojām tiek nepietiekami izmantots, jo programmatūras slānis nav nobriedis.

MNN Chat gadījums ir ilustratīvs: tā ir viena no ātrākajām lietotnēm, ko daudzi lietotāji ir izmēģinājuši uz S24 Ultra, taču par ļoti kvantētu modeļu cenu, ar zināmu kvalitātes upurēšanu un bez skaidrības, vai tā pilnībā izmanto Snapdragon NPU vai arī "tikai" ļoti labi optimizē CPU/GPU maršrutu.

Kāpēc jūsu S24 Ultra neizmanto 100% no sava NPU ar Qwen 3.5 4B

Lai gan uz papīra S24 Ultra vai S25 Ultra SoC var apstrādāt modeļus ar līdz pat 10 miljardiem parametru un vairāk nekā 40 TOPS AI aprēķinu, instalējot LLM, piemēram, Qwen 3.5 4B, vispārīgā lietotnē parasti notiek tas pats: Tas ātri ieslēdzas, tad uzkarst, veiktspēja samazinās un stabilizējas krietni zem gaidītā līmeņa..

Galvenais iemesls ir tāds, ka vairumā trešo pušu lietotņu modelis darbojas centrālajā procesorā vai grafikas procesorā, izmantojot vispārējas nozīmes bibliotēkas (BLAS, Vulkan, Metal) bez tiešas, detalizētas piekļuves SoC NPU. Mobilajās ierīcēs NPU parasti ir pieejams, izmantojot API, piemēram, NNAPI operētājsistēmā Android vai Core ML operētājsistēmā iOS, taču ne visi lokālie LLM ietvari ir labi integrēti ar tiem, un ražotāju atbalsts atšķiras.

Rezultātā vienkāršs tests, piemēram, tāds, kādu Nexa AI parādīja ar augstas klases Galaxy tālruni, kas ģenerēja nepārtrauktu tekstu, skaidri parāda darbību: ja viss ir atkarīgs no centrālā procesora (CPU), sākotnēji žetonu skaits sekundē ir ļoti augstsTaču dažu minūšu laikā temperatūra paaugstinās, sistēma pazemina frekvences, lai nepārsniegtu termisko robežu, un veiktspēja samazinās līdz daudz pieticīgākam, bet ilgtspējīgākam līmenim.

Kad darba slodze patiešām pāriet uz NPU, profils mainās: sākumā tik iespaidīgu pieaugumu neredz, bet gan daudz lielāku žetonu ražošanu. plakana un stabila laika gaitāar zemāku temperatūru un mazāku ietekmi uz akumulatora darbības laiku. Šobrīd problēma ir panākt, lai lokālā LLM lietotne netraucēti sazinātos ar šo NPU.

Turklāt pastāv arī citi fiziski ierobežojumi, kurus nevar risināt ar programmatūru: pieejamās RAM apjoms, SoC atmiņas joslas platums un paša modeļa izmērs. Mobilajās ierīcēs LLM "komforta zona" parasti atrodas kvantizēti modeļi, kuru izmērs ir aptuveni 3–4 GBVirs tā gandrīz vienmēr palielinās ielādes laiks, patēriņš un droseļvārsts.

Tāpēc, lai gan tādu mikroshēmu kā Snapdragon 8 Gen 3 vai 8 Gen 4 mārketingā tiek runāts par "10B LLM ierīcē", praksē lietotāja pieredze ar lieliem atvērtā pirmkoda modeļiem joprojām ir delikāta, it īpaši, ja lietotne nav izstrādāta no nulles, lai maksimāli izmantotu NPU, izmantojot ražotāja oficiālos SDK.

Vietējā mākslīgā intelekta priekšrocības un trūkumi mobilajās ierīcēs

Kā uzlabot mobilo sakaru pārklājumu apgabalos ar vāju signālu

Mākslīgā intelekta lokāla palaišana mobilajās ierīcēs ir ārkārtīgi pievilcīga. Pirmkārt, PrivātumaJa modelis runā pa tālruni un nav zvanu uz ārējiem serveriem, viss, ko jūs tam sakāt, paliek tur. Tas ir nenovērtējami sensitīviem lietojumiem (personiskām piezīmēm, medicīniskajiem datiem, uzņēmuma iekšējiem dokumentiem utt.).

La latentums Tas arī darbojas jūsu labā: jūs neesat atkarīgs no tīkla, tāpēc teksta kopsavilkums, ātrs tulkojums vai neliels spriešanas apraksts pienāk tik ātri, cik to atļauj mikroshēma, lai kur jūs atrastos. Pat metro bez signāla vai ceļojumā bez datiem jums joprojām ir funkcionāls asistents.

Turklāt plašā mērogā darba atslogošana no mākoņa samazina izmaksas. Tas nav tas pats, kas miljoniem lietotāju, kas veic katru vaicājumu maksas GPU klasterim, bet gan pārvietot dažus no šiem pieprasījumiem uz... NPU, kas jau ir samaksājuši, pērkot mobilo tālruniTāpēc tādi uzņēmumi kā Qualcomm, MediaTek un Apple tik ļoti virza mākslīgā intelekta ieviešanu ierīcēs.

Nodeva ir otrā pusē. akumulators un temperatūra Tie cieš, ja pārmērīgi izmantojat sarežģītus modeļus, mazāku modeļu kvalitāte vēl nesasniedz GPT-4 vai Gemini Ultra līmeni, un pieredze var būt nekonsekventa, ja programmatūra vēl ir agrīnā stadijā: avārijas, modeļi, kas neielādējas, nomācoši ilgs laiks līdz pirmā žetona iegūšanai…

Tāpēc daudzi zīmoli liek likmes uz modeli hibrīdsVienkārši, ātri un atsaucīgi uzdevumi (pamata tulkojumi, teksta labošana, noteikta fotoattēlu rediģēšana un saīsnes) tiek apstrādāti tieši mobilajā ierīcē, savukārt sarežģītāki pieprasījumi vai tādi, kuriem nepieciešams jaudīgs procesors, tiek nosūtīti uz mākoņpakalpojumu. Tas rada netraucētu un privātu pieredzi, neupurējot jaudīgāku ierīču iespējas, kad tas nepieciešams.

Galu galā NPU uzdevums ir nodrošināt visu šo darbību: bez ļoti efektīva mākslīgā intelekta kodola SoC, lokālais mākslīgais intelekts būtu neregulāra greznība, kas iztukšotu akumulatoru dažu minūšu laikā. Ar nobriedušu NPU un labu programmatūru tas kļūst par nemanāmu funkciju, kas darbojas fonā jūsu tālrunī, datorā vai automašīnā, kamēr jūs vienkārši redzat, kā viss reaģē ātrāk un inteliģentāk.

Ņemot vērā šo scenāriju, sajūta ir skaidra: mākslīgais intelekts vairs neatrodas tikai mākonī vai tikai lielu tehnoloģiju uzņēmumu serveros, bet gan nolaižoties tieši kabatā un uz galdaMobilā SoC neironu procesors (NPU) nav paredzēts tikai izrādīšanai: tā klusais dzinējs padara lokālo mākslīgo intelektu samērā ātru, noderīgu un privātu, lai gan mums joprojām ir nepieciešams lēciens programmatūrā un ekosistēmā, lai ikviens varētu to maksimāli izmantot, nenopūloties un neapmierinoties ar 4 žetoniem sekundē.


Jūs varētu interesēt:
Kādas ir vissvarīgākās īpašības, izvēloties jaunu mobilo tālruni?