Dešifrirane tajne obrade prirodnog jezika

Preuzeto i prevedeno sa: www.iso.org

ISO vijest na engleskom jeziku možete pročitati ovdje

 

„Obrada prirodnog jezika (NLP) podupire mnoge tehnologije koje koristimo svaki dan, od virtualnih pomoćnika, kao što su Siri i Aleksa, do prevoditeljskih alata, pa do preciznijeg predviđanja teksta. U suštini, NLP omogućava kompjutorima razumjeti ljude i govore njihovim jezikom. Pravilno razvijen, ovaj se alat može koristiti da se premosti jaz između čovjeka i stroja i na taj način otvore potpuno nove mogućnosti.

NLP je grana vještačke inteligencije koja primjenjuje strojno učenje i druge tehnologije za tekst i govor. Nastao je kao rezultat istraživanja provedenog na temelju teorija Alana Turinga i eksperimenata Johna Searla iz 1950-ih. Većina ljudi su s njim došli u kontakt tek onda kada su personalni kompjutori ušli u masovnu uporabu i kada ih je Microsoftov virtualni pomoćnik Clippy pitao žele li napisati pismo ili kada je crvena boja označavala da su pogrešno napisali neku riječ.

Sada, dvadeset godina kasnije, NLP je oblast koja se brzo razvija, kombinirajući kompjutorske znanosti, vještačku inteligenciju (AI) i lingvistiku za analizu i razumijevanje ljudskog jezika (AI NLP-a).

U ovome članku pogledat ćemo magloviti svijet obrade ljudskog jezika u AI-ju kako bismo predstavili njegova temeljna načela i istražili neke od alata i tehnika koje ga čine i istražili samo neke od bezbroj načina njegove uporabe, kako bismo vam dali temelj za razumijevanje koji će vam na kraju pomoći odgovoriti na pitanje: što je NLP?

Sadržaj

·         Što je obrada prirodnog jezika?

·         Kako funkcionira obrada prirodnog jezika?

·         Alati za obradu prirodnog jezika

·         Za što se koristi obrada prirodnog jezika?

·         Poteškoće i ograničenja obrade prirodnog jezika

·         Savladavanje kaosa

·         Kakva je budućnost obrade prirodnog jezika?

Što je obrada prirodnog jezika?

NLP se odnosi na interakcije između kompjutora i ljudskog jezika. Sastoji se od sposobnosti kompjutorskog sustava da analizira ljudski jezik, interpretira ga i generira na način koji je i relevantan i koristan. NLP koristi različite alate, tehnike i algoritme za strojno učenje, kao i simboličku vještačku inteligenciju, kako bi omogućio strojevima da razumiju i obrađuju podatke prirodnog jezika, uključujući tekst i govor.

Koristeći statističke modele, strojno učenje i lingvistička pravila, NLP omogućava kompjutorima da obavljaju zadatke kao što su analiza osjećanja, klasifikacija teksta, strojno prevođenje, razvoj chatbota i još mnogo toga.

Kako funkcionira obrada prirodnog jezika?

Proces strojnog učenja ima mnogo koraka koji omogućavaju obavljanje uobičajenih NLP zadataka. Ovi elementi NLP-a rade zajedno kako bi olakšali sveobuhvatno strojno razumijevanje ljudskog jezika.

Prvi korak je priprema, prethodna obrada, redukcija, indeksiranje i kodiranje podataka. U ovome slučaju, podatci su tekst koji može doći s jedne ili više web-lokacija ili drugih izvora. Ovaj se korak sastoji od sljedećih zadataka:

·         Čišćenje podataka - koje se može sastojati, primjerice, od pisanja Python skripte za izdvajanje teksta iz HTML-a web-stranice.

·         Tokenizacija - koja se sastoji od razbijanja teksta na manje jedinice, kao što su individualne riječi, koje se nazivaju tokeni. Često se susrećemo s terminom token u kontekstu velikih generativnih AI jezičkih modela (ili LLM-ova).

·         Označavanje dijela govora - proces identifikacije kategorija riječi, kao što su imenice, glagoli i pridjevi.

Kada su podatci prethodno obrađeni, može se izgraditi algoritam strojnog učenja za obuku NLP modela. Ovaj proces zahtijeva unošenje velike količine podataka u softver kako bi se povećala razina točnosti modela.

Ovaj algoritam se zatim može koristiti za obavljanje zadataka koji razlažu tekst ili govor kako bi se kompjutorskim programima olakšalo njihovo razumijevanje uključujući sintaksu (raspored riječi), semantiku (značenje riječi i rečenica), pragmatiku (kontekstualno značenje) i diskurs (način na koji su rečenice u tekstu povezane).

Alati za obradu prirodnog jezika

Koji su to glavni alati i tehnologije koji se koriste u NLP-u? Neki primjeri NLP-a su dati u nastavku.

Alat koji se najčešće koristi u NLP-u je Natural Language Toolkit (NLTK), modul otvorenog pristupa izgrađen na popularnom programskom jeziku Python. Srećom, ne morate biti stručnjak za kodiranje kako biste primijenili obradu prirodnog jezika s Pythonom. Alati kao što je NLTK sadrže čitave knjižnice skupova podataka i tutorija i nude unaprijed definirane funkcije i modele koji se mogu integrirati u uobičajene NLP zadatke i podzadatke, kao što su tokenizacija i semantičko rasuđivanje, točnije sposobnost da se dođe do logičnog zaključka na temelju činjenica izvučenih iz teksta.

Za što se koristi obrada prirodnog jezika?

Danas se NLP koristi u širokom spektru svakodnevnih aplikacija i pronalazi nove mogućnosti za uporabu u različitim sektorima, kao što su zdravstvo i financije. Evo nekih od najčešćih NLP aplikacija i oblasti u kojima se može sresti obrada prirodnog jezika u AI-ju:

·         Chatbotovi i virtualni asistenti: aplikacije koje pokreće vještačka inteligencija, kao što su Siri i Aleksa, koriste NLP tehnike za interakciju s korisnicima kroz razgovore na prirodnom jeziku.

·         Jezično prevođenje: NLP modeli mogu se trenirati na velikim količinama dvojezičnih podataka, što će ih osposobiti da mogu precizno prevesti tekst uzimajući u obzir gramatička pravila i kontekstualne nijanse.

·         Pretraživači: Sustavi za odgovaranje na pitanja, kao što su pretraživači, koriste NLP algoritme da razumiju pitanja koja postavljaju korisnici i da im daju relevantne odgovore. Ovi sustavi analiziraju kontekst pitanja, identificiraju ključne informacije, pretražuju relevantne dokumente ili baze znanja i daju precizne odgovore na upit korisnika.

·         Filtriranje e-pošte: Inboks prepun nepročitanih poruka e-pošte predstavlja problem s kojim se puno ljudi često susreće. NLP se koristi za filtriranje e-pošte i razvrstavanje u različite kategorije. Najnaprednije tehnologije za otkrivanje neželjene pošte, odnosno spama koriste mogućnosti klasifikacije teksta NLP-a za skeniranje e-pošte u potrazi za tekstualnim elementima koji ukazuju na prisustvo neželjene pošte ili phishinga.

NLP je također postao nezamjenjiv alat u različitim sektorima, na revolucionaran način mijenjajući model po kojem komuniciramo s tehnologijama:

·         Zdravstvo: NLP je od suštinskog značaja u zdravstvenoj industriji jer omogućava učinkovite analize medicinske dokumentacije, podataka o pacijentima i kliničkih bilješki. Pomaže u poboljšanju dijagnostike, identifikaciji obrazaca, predviđanju ishoda i optimizaciji cjelokupne njege pacijenata.

·         Financije: NLP igra ključnu ulogu u financijskoj industriji zahvaljujući automatizaciji zadataka koji su se prethodno obavljali ručno, kao što su analiza financijskih izvješća, najnovijih vijesti iz oblasti financija i povratnih informacija klijenata. Omogućava analizu osjećaja, otkrivanje prijevara, procjenu rizika i personalizaciju financijskih preporuka.

·         Korisnički servis: NLP je od suštinskog značaja za odjele za korisničku potporu jer omogućava chatbotovima i virtualnim asistentima da razumiju i pravodobno odgovaraju na upite kupaca, što poboljšava zadovoljstvo kupaca i smanjuje radno opterećenje službe za potporu korisnicima.

·         E-trgovina: NLP se koristi u industriji e-trgovine u različite svrhe, kao što su preporuke proizvoda na temelju korisničkih preferencija i povijesti pretraživanja. Također pomaže u analizi osjećaja u recenzijama kupaca kako bi se razumjelo njihovo mišljenje o određenim proizvodima i uslugama.

·         Pravne usluge: NLP pomaže profesionalcima iz pravnog sektora tako što automatizira zadatke kao što su analiza ugovora i pregled pravnih dokumenata, čime se štedi vrijeme i trud.

·         Obrazovanje: NLP donosi velike prednosti obrazovnom sektoru jer omogućava primjenu inteligentnih sustava podučavanja koji personaliziraju iskustva učenja kod učenika.

·         Ljudski resursi: NLP pomaže odjelima za ljudske resurse da obavljaju zadatke kao što su analiza biografije, pregled podobnosti kandidata i analiza osjećaja kod povratnih informacija dobivenih od zaposlenih.

Poteškoće i ograničenja obrade prirodnog jezika

Kao i svaka složena oblast i NLP se suočava s određenim poteškoćama. Algoritamska složenost NLP zadataka može predstavljati značajno ograničenje, primjerice. Obrada veoma velikih količina tekstualnih podataka zahtijeva značajnu računarsku snagu i mnogo vremena, što otežava analizu u realnom vremenu ili skoro u realnom vremenu. Još jedan izazov koji treba prevazići je poboljšanje učinkovitosti i brzine NLP algoritama. Međutim, izazovi poput onih navedenih u nastavku također predstavljaju ogromne mogućnosti za inovacije i rast.

·         Ograničeno kontekstualno razumijevanje i pamćenje: NLP modeli često imaju poteškoća u tumačenju ili pamćenju značenja riječi ili fraza na temelju konteksta u kojem se te riječi ili fraze koriste. Ovaj problem može dovesti do pogrešnih tumačenja ili netočne analize tekstualnih podataka.

·         Dvosmislenost i polisemija: Mnoge riječi i fraze imaju višestruka značenja, što otežava modelima NLP-a da precizno odrede namjeravanu uporabu jezične jedinice u datom kontekstu. Ova poteškoća može dovesti do pogrešnih analiza ili nesporazuma.

·         Jezične varijacije i idiomi: Velika raznolikost jezika i njihovih regionalnih varijacija - različiti dijalekti, idiomi, sleng, kolokvijalni izrazi - za NLP modele komplicira analizu i točno tumačenje tekstova prema različitim jezičnim kontekstima. Istraživači rade na tome da neprestano ažuriraju ove modele i prilagođavaju ih evoluciji jezika.  

·         Nedostatak zdravog razuma: Ako ljudi mogu izvući implicitne informacije iz teksta zahvaljujući svojoj općoj kulturi i zdravom razumu, NLP modelima često nedostaje ova sposobnost. Ovaj jaz ometa sposobnost ovih modela da razumiju nijanse teksta ili da daju točna predviđanja na temelju implicitnih informacija.

·         Kvaliteta podataka i pristrasnost: Kvaliteta podataka koji se koriste za obuku NLP modela igra ključnu ulogu u performansama rezultata. Pristrasni ili nepotpuni skupovi podataka mogu dovesti do jednako pristrasnih rezultata i  pogoršanja predrasuda i stereotipa u društvu.

·         Pitanja etike i privatnosti: Povećanje uporabe NLP-a u različitim aplikacijama dovelo je do porasta etičkih pitanja i zabrinutosti za privatnost. Teme kao što su privatnost, sigurnost i zlouporaba podataka u NLP tehnologiji postavljaju važna pitanja u vezi s odgovornim razvojem i primjenom NLP sustava.

Savladavanje kaosa

Suočeni s rastućom integracijom NLP modela u kritične sektore, kao što su zdravstvo, financije ili promet, od suštinskog značaja je da se osiguraju njihova sigurnost, pouzdanost i etička uporaba. Međunarodni standardi nude u tom pogledu okvir konzistentnosti i kvalitete u različitim uporabama, posebice u različitim aplikacijama NLP-a. Izrada namjenskih standarda vještačke inteligencije, poput onih koje je razvila ekspertska skupina ISO/IEC JTC 1/SC 42, naglašava posvećenost ISO-a osiguranju da se AI tehnologije razvijaju i koriste na odgovoran i učinkovit način.

ISO/IEC 42001 sustav upravljanja vještačkom inteligencijom

ISO/IEC 23894 AI – Naputak za upravljanje rizikom

Kao dio proširenog AI programa rada, istražuje se zajednička inicijativa o sustavima za obradu prirodnog jezika, u suradnji s ISO/TC 37, stručnim komitetom za jezik i terminologiju. Ova inicijativa ima koristi od širokog spektra stručnosti u oblasti vještačke inteligencije, koja pokriva i govorni i pisani jezik i obuhvaća brojne sudionike diljem svijeta. Proširenje ISO-ovog programa rada odražava značaj međunarodnih standarda kao rješenja za odgovorno usvajanje tehnologije.

Kakva je budućnost obrade prirodnog jezika?

NLP je spreman potpuno redefinirati digitalnu komunikaciju, poboljšavajući našu sposobnost da komuniciramo ne samo s kompjutorima, već i međusobno. Njegova budućnost obećava još daljnju integraciju s drugim AI oblastima, što će poboljšati njegove mogućnosti. Pojava neuronskih mreža u NLP-u, primjerice, već transformira način rada kod pretraživanja. Dok su ranije njihovi rezultati bili prikupljani iz baza podataka, danas neuronske mreže pretražuju i nude najrelevantnije rezultate na temelju povijesti interakcija korisnika s kompjutorom. S vremenom će ova sposobnost postati još preciznija.  

Međutim, od suštinske je važnosti da se pozabavimo legitimnim zabrinutostima koje izaziva ova tehnologija kako bi se osiguralo da služi interesima svih nas. Ako to možemo uraditi, uz uporabu rigoroznih standarda koji su dobro postavljeni i provedeni, onda NLP može pomoći u izgradnji budućnosti u kojoj AI i ljudska inteligencija rade u harmoniji za zajednički napredak.“