OpenAI avastas tehisintellekti mudelites varjatud funktsioonid, mis põhjustavad vastuolulisi vastuseid

OpenAI teadlased avastasid keelemudelites ootamatu käitumise, mis võib viia ettearvamatu ja vastuoluliste vastusteni. See avastus võib muuta arusaamist sellest, kuidas kaasaegsed tehisintellekti süsteemid töötavad.

G. Ostrov

19. juuni 2025

OpenAI teadlaste meeskond tegi olulise avastuse tehisintellekti valdkonnas, avastades keelemudelites varjatud funktsioonid, mis võivad viia ootamatute ja vastuoluliste tulemusteni. See uurimus valgustab kaasaegsete närvivõrkude keerukust ja nende ettearvamatu käitumist.

Mis on varjatud funktsioonid

Varjatud funktsioonid on mudeli varjatud võimalused, mida arendajad ei ole tahtlikult programmeerinud, kuid mis on tekkinud õppimisprotsessi käigus. Need funktsioonid võivad aktiveeruda teatud tingimustel ja viia vastusteni, mis ei vasta süsteemi oodatud käitumisele.

Teadlased avastasid, et AI mudelid võivad näidata erinevat käitumist sõltuvalt päringu kontekstist, isegi kui päring ise on formaalselt sama. See tekitab probleeme tehisintellekti süsteemide usaldusväärsuse ja prognoositavuse tagamisel.

Mõju AI arengule

Varjatud funktsioonide avastamine omab tõsiseid tagajärgi AI tööstusele. See rõhutab vajadust närvivõrkude sisemiste mehhanismide sügavama mõistmise ja nende käitumise kontrollimise uute meetodite väljatöötamise järele.

AI-ga töötavad ettevõtted peavad nüüd arvestama oma süsteemides ettenägematu käitumise võimalusega ja välja töötama vastavad ohutus- ja kvaliteedikontrolli meetmed.

Uurimismeetodid

Varjatud funktsioonide tuvastamiseks kasutasid teadlased spetsiaalseid neuronide aktivatsiooni analüüsimise tehnikaid ja uurisid mudeli käitumismustrid erinevates stsenaariumides. Nad viisid läbi süstemaatilist testimist, kasutades mitmesuguseid päringuid ja analüüsisid saadud tulemusi vastuolude osas.

Uuringu tulemused näitasid, et isegi hästi treenitud mudelid võivad sisaldada "pimedaid tsoone" ja näidata ootamatut käitumist teatud olukordades.

Tulevased uurimissuunad

See avastus avab uusi suundi AI ohutuse ja mudelite tõlgendatavuse uurimiseks. Teadlased töötavad tehisintellekti süsteemide testimise ja valideerimise usaldusväärsete meetodite loomise kallal.

Ametlik informatsioon OpenAI uuringute kohta on saadaval OpenAI Research veebilehel.

Probleemide korral kirjutage meile, aitame kiiresti ja kvaliteetselt!