Vesti
Srpski model veštačke inteligencije: prilike i izazovi
Razvoj modela veštačke inteligencije (AI) je zahtevan proces, kako u pogledu potrebnih resursa, tako i kadrovskih odnosno naučnih kapaciteta. Srbija se odlučila za razvoj modela na „maternjem“ jeziku, što je u eri dominacije globalnih igrača kao što su Anthropic, OpenAI ili Google zaista ambiciozan korak. O planovima, rizicima i primeni srpskog AI modela smo razgovarali sa savetnikom za digitalne tehnologije Programa za razvoj Ujedinjenih nacija (UNDP) Slobodanom Markovićem. Razgovor vodio Bojan Perkov.
Šta sve podrazumeva razvoj jezičkog modela veštačke inteligencije (LLM) kada je reč o „manjim“ jezicima poput srpskog?
Možda da krenemo od opštijih stvari – LLM je samo jedna vrsta modela veštačke inteligencije koji su se pojavili poslednjih godina i koji su najpopularniji zbog ChatGPT i te dijaloške generativne AI. Ima i drugih modela koji ne služe za generisanje, već recimo za detekciju adresa, imena, novčanih iznosa ili brojeva računa u tekstu, koji su mnogo prilagođeniji za obeležavanje dokumenata, ekstrakciju podataka iz dokumenata ili klasifikaciju dokumenata. Takođe imamo modele koji rade sa govorom – prevođenje govora u tekst ili sinteza govora, odnosno prevođenja teksta u govor. Srbiji je u stvari potrebno da lokalizuje, odnosno da prilagodi srpskom jeziku i kulturi sve te modele, dakle ne samo generativni model. Potrebni su sirovi podaci, setovi podataka za evaluaciju, prilagođeni modeli, kao i ljudi koji će sve to da obrađuju.
Koje su prednosti modela na srpskom, kakvi su potencijali?
Modeli veštačke inteligencije se treniraju na sirovim podacima tako što se na njima primenjuju algoritmi mašinskog učenja. Ono što je činjenica je da su danas najpopularniji modeli, kao što su ChatGPT, Claude, Gemini, obučavani na ogromnim količinama podataka koje su već dostupne na internetu i u njima je dominantno zastupljen engleski jezik, koji ima i najveću težinu tokom treniranja. Ti modeli se dodatno prilagođavaju, kako bi dobro radili neke zadatke poput odgovaranja na pitanja, što se takođe radi najviše za englesko govorno područje. Nijedan od globalnih modela nije specifično prilagođavan za srpski jezik i kulturu, što nije problem za svakodnevnu upotrebu. Međutim, pošto su ti modeli trenirani na dominantnom srpskom govoru, odnosno beogradskom ekavskom izgovoru, uglavnom nisu dobro prilagođeni za različite varijante jezika, recimo ijekavski srpski često mešaju sa hrvatskim.
Zato mislim da je neophodno da mi bolje prilagodimo postojeću veštačku inteligenciju našem jeziku, jer su treniranje ovih modela i potrebna arhitektura veoma skupi i zato ne treba da pravimo ništa od nule, već da produkujemo podatke koji koriguju modele da bolje rade za srpski. Te podatke treba da objavimo da budu dostupni pod slobodnim licencama, kako bi bilo koji budući komercijalni ili nekomercijalni model mogao da se prilagodi. Svi modeli koji se sada prilagođavaju na podacima treba da budu slobodno dostupni i pod licencama koje omogućavaju upotrebu u bilo koje svrhe, uključujući i komercijalne, čime se podstiču lokalni startap ekosistem i domaće firme.
Početkom godine potpisan je sporazum o saradnji Kancelarije za IT i eUpravu i Privredne komore Srbije. Tada su zvaničnici izjavili da će se AI, odnosno LLM na srpskom, primenjivati u zdravstvu, obrazovanju, privredi, pravosuđu, kulturi i drugim oblastima. Šta mogu biti izazovi imajući u vidu česte incidente sa podacima i državnom infrastrukturom?
Taj sporazum je zaključen radi saradnje na izradi samo jednog modela, odnosno generativnog. Ono što treba da znamo je da svi ti modeli predstavljaju deo moderne tehnološke infrastrukture, jer se „pakuju“ u servise za korisnike ili aplikacije. Ako se modelima u nekom trenutku desi „trovanje“ podataka kao nešto što omogućava loše stvari, to je veoma problematično. Takođe se postavlja pitanje odakle dolaze podaci na kojima se trenira model, na primer tu ne bi smeli da se nađu podaci zaštićeni kopirajtom. Kada je reč o podacima o ličnosti, to zavisi od oblasti. U nekim oblastima je poželjno da se modeli treniraju na podacima o ličnosti, kao na primer modeli za anonimizaciju podataka ili modeli za dijagnostiku koji recimo treba da se treniraju na podacima o polu i godištu osobe kako bi mogle da se naprave te vrste korelacija. Tu je naravno i pitanje bezbednosti podataka, što je takođe rizik.
Pitanje dostupnih setova podataka je jedno od ključnih za razvoj AI, te su nedavno potpisani protokoli o saradnji sa 11 medija i institucija, među kojima su RTS, Politika, Službeni glasnik i Narodna biblioteka. Kolike su šanse da kompletan model, dakle ne samo setovi podataka već i parametri, budu otvoreni za javnost?
Mislim da će tu biti donekle obrnuta stvar, model će svakako biti otvoren jer nema poente praviti modele koji su zatvoreni. Mi smo mala zemlja i nama je svima u interesu da što više stvari bude otvoreno da bi ljudi mogli da ih nadograđuju, jer već imamo dovoljno problema zbog toga što nemamo resurse, tekstove i kvalitetne materijale. Što se tiče podataka koje institucije daju, tu bih napravio razliku: svi ti repozitorijumi predstavljaju jako velike količine podataka i mislim da nije realno ni praktično da se oni otvore svima. Sa druge strane, nacionalno relevantni skupovi podataka, koji su veoma važni za našu zemlju i kulturu, treba da se čuvaju na mestu koje je blizu infrastrukture za treniranje modela, a to je Državni data centar u Kragujevcu. Zatim iz njih treba da se izdvoje reprezentativni skupovi podataka koji recimo mogu da se objave na Hugging Face platformi ili negde drugde javno i predstave kao ekspertski sačinjen skup podataka koji služi da bi popravio performanse modela za generisanje govora na srpskom.
Često prisutan narativ među predstavnicima države je da će razvoj modela na srpskom doprineti tehnološkom suverenitetu Srbije. Koliko je to realnost ako se uzme u obzir da se tehnička infrastruktura (npr. superkompjuteri) nabavlja od stranih izvora i da se za to izdvajaju velika sredstva?
Danas je veliko pitanje ko može da bude suveren u tehnološkom smislu jer je tehnička infrastruktura jako kompleksna. Mi možemo da postignemo određeni nivo suverenosti, ili pre otpornosti da ne zavisimo od jednog dobavljača za nešto, odnosno ako se desi neki problem da imamo opcije, ali to košta i na tome mora istrajno da se radi. Možda najbolja ilustracija toga je situacija u kojoj se skoro našla Danska – oni su podrazumevali da je korišćenje Microsoft proizvoda potpuno bezbedno i da oni mogu da se oslone na to jer su deo NATO i zapadne civilizacije. A onda dođe Tramp i napravi haos sa Grenlandom, što ih podseti da bi sankcije koje bi se uvele pogodile i Microsoft, koji bi morao da im ukine tu vrstu usluge. Tu se zatim postavlja pitanje koliki deo danske državne infrastrukture zavisi od Microsoft Azure ili Windowsa. Vidimo da neki režimi širom sveta, poput Kine i Rusije, aktivno rade na tome da iz njihovih razloga poboljšalju otpornost i tehnološku nezavisnost, ali je čak i njima to jako teško. Mi prvo treba da mapiramo kako stoje stvari, odakle može da dođe problem i od kojih dobavljača zavisimo, pa da onda vidimo u kojim oblastima možemo da postignemo neku vrstu suverenosti. Iz razloga zaštite podataka o ličnosti građana i tajnih podataka i optimizacije troškova, nama je za početak sasvim u redu da imamo klaster od hiljadu ili par hiljada grafičkih jedinica i da to služi našim ograničenim potrebama.
Kako možemo da obezbedimo zaštitne mere prilikom razvoja domaćeg AI modela, naročito kada je reč o sajber bezbednosti i upotrebi AI za generisanje manipulativnih sadržaja i propagandu? Koliko tome može da doprinese zajednica sa tehnološkom ekspertizom?
Ako su podaci na kojima su modeli trenirani „otrovani“ ili ako postoji mogućnost da se modeli koriste za destruktivne radnje, treba da imamo mehanizam koji omogućava istraživačima koji utvrde da postoji neki problem da to prijave kako bi se korigovalo. Model treba da se testira što je više moguće jer su modeli toliko opšti da je teško predvideti na koje sve načine ljudi mogu da ih zloupotrebe – neophodno je da se uradi „red teaming“ i testiraju poznati rizici pre objavljivanja. Tu je jako važna uloga zajednice, koja nije samo ograničena na srpski jezički model i bezbednost. Postoji veliki prostor za civilno društvo, tehničku zajednicu i akademsku zajednicu da doprinesu svemu ovome. Mi danas ne znamo koliko modeli veštačke inteligencije rade dobro za srpski ili koje pristrasnosti ispoljavaju u vezi sa rodom, etničkom pripadnošću ili govorom mržnje. Te vrste testova i evaluacija uglavnom ne postoje, mislim da mi već danas možemo da počnemo to da radimo sa modelima koji su sada aktuelni, a svakako će ti testovi moći da se primene kada se objavi srpski model.
Čini se da su, kao i kod drugih tehnoloških poduhvata, građani nedovoljno uključeni i informisani o primeni veštačke inteligencije u njihovim interakcijama sa institucijama. Kako možemo da obezbedimo aktivniju ulogu građana i donošenje odluka u skladu sa njihovim pravima i javnim interesom?
Kada se prave sistemi koji u softveru enkoduju ono što smo mi dogovorili kako nešto treba da funkcioniše, nema razloga zašto bi ti sistemi i njihov način funkcionisanja bili tajni. Ovde ne mislim nužno na kod, ali ne možemo bez znanja o tome kako funkcioniše sistem koji služi za donošenje odluka o pravima ljudi. Dakle, koji su ulazni parametri sistema, koji je algoritam za donošenje odluka, kakav je tok podataka i kako se oni transformišu u tom sistemu, odnosno u kojim tačkama se neke odluke možda donose autonomno, da li postoji ljudska intervencija i mogućnost da se uloži žalba na odluku. Nažalost, mislim da se tradicionalno u Srbiji o tome već duže vreme, još od pojave prvih kompjutera, ne misli dovoljno. Svaki javni sistem, finansiran javnim novcem i implementiran na osnovu javne politike treba da ima taj minimum transparentnosti, što opet zahteva resurse. Kao što imamo ljude koji su odgovorni za zahteve u vezi sa podacima o ličnosti ili pristupom informacijama od javnog značaja, trebalo bi da postoje ljudi odgovorni za dokumentovanje i rad ovakvih sistema. Takođe, da postoji institucija koja može da izvrši inspekciju nekog sistema, utvrdi kako taj sistem funkcioniše i da li postoje rizici po prava građana. Veštačka inteligencija unosi novi nivo kompleksnosti koji je problem za državu, kao i za građane jer je nivo digitalne pismenosti da bi se ta tehnologija razumela još viši.