Дешифроване тајне обраде природног језика

Преузето и преведено са: www.iso.org

ISO вијест на енглеском језику можете прочитати овдје

 

„Обрада природног језика (NLP) подржава многе технологије које користимо сваки дан, од виртуелних помоћника, као што су Сири и Алекса, до преводилачких алата, па до прецизнијег предвиђања текста. У суштини, NLP омогућава компјутерима да разумију људе и говоре њиховим језиком. Правилно развијен, овај алат може да се користи да се премости јаз између човјека и машине и на тај начин отворе потпуно нове могућности.

NLP је грана вјештачке интелигенције која примјењује машинско учење и друге технологије за текст и говор. Настао је као резултат истраживања проведеног на основу теорија Алана Тјуринга (Alan Turing) и експеримената Џона Сирла (John Searl) из 1950-их. Већина људи су с њим дошли у контакт тек онда када су персонални компјутери ушли у масовну употребу и када их је Мајкрософтов виртуелни помоћник Клипи (Clippy) питао да ли желе да напишу писмо или када је црвена боја означавала да су погрешно написали неку ријеч.

Сада, двадесет година касније, NLP је област која се брзо развија, комбинујући компјутерске науке, вјештачку интелигенцију (AI) и лингвистику за анализу и разумијевање људског језика (AI NLP-а).

У овом чланку ћемо погледати магловити свијет обраде људског језика у AI-ју да бисмо представили његове основне принципе и истражили неке од алата и техника које га чине и истражили само неке од безброј начина његове употребе, да бисмо вам дали основ за разумијевање који ће вам на крају помоћи да одговорите на питање: шта је NLP?

Садржај

·         Шта је обрада природног језика?

·         Како функционише обрада природног језика?

·         Алати за обраду природног језика

·         За шта се користи обрада природног језика?

·         Потешкоће и ограничења обраде природног језика

·         Савладавање хаоса

·         Каква је будућност обраде природног језика?

Шта је обрада природног језика?

NLP се односи на интеракције између компјутера и људског језика. Састоји се од способности компјутерског система да анализира људски језик, интерпретира га и генерише на начин који је и релевантан и користан. NLP користи различите алате, технике и алгоритме за машинско учење, као и симболичку вјештачку интелигенцију, да би омогућио машинама да разумију и обрађују податке природног језика, укључујући текст и говор.

Користећи статистичке моделе, машинско учење и лингвистичка правила, NLP омогућава компјутерима да обављају задатке као што су анализа осјећања, класификација текста, машинско превођење, развој четбота и још много тога.

Како функционише обрада природног језика?

Процес машинског учења има много корака који омогућавају обављање уобичајених NLP задатака. Ови елементи NLP-а раде заједно да би олакшали свеобухватно машинско разумијевање људског језика.

Први корак је припрема, претходна обрада, редукција, индексирање и кодирање података. У овом случају, подаци су текст који може доћи с једне или више веб-локација или других извора. Овај корак се састоји од сљедећих задатака:

·         Чишћење података - које се може састојати, на примјер, од писања Python скрипте за издвајање текста из HTMLвеб-странице.

·         Токенизација - која се састоји од разбијања текста на мање јединице, као што су индивидуалне ријечи, које се називају токени. Често се сусрећемо с термином токен у контексту великих генеративних AI језичких модела (или LLM-ова).

·         Означавање дијела говора - процес идентификације категорија ријечи, као што су именице, глаголи и придјеви.

Када су подаци претходно обрађени, може да се изгради алгоритам машинског учења за обуку NLP модела. Овај процес захтијева уношење велике количине података у софтвер да би се повећао ниво тачности модела.

Овај алгоритам затим може да се користи за обављање задатака који разлажу текст или говор да би се компјутерским програмима олакшало њихово разумијевање укључујући синтаксу (распоред ријечи), семантику (значење ријечи и реченица), прагматику (контекстуално значење) и дискурс (начин на који су реченице у тексту повезане).

Алати за обраду природног језика

Који су то главни алати и технологије који се користе у NLP-у? Неки примјери NLP-а су дати у наставку.

Алат који се најчешће користи у NLP-у је Natural Language Toolkit (NLTK), модул отвореног приступа изграђен на популарном програмском језику Python. Срећом, не морате бити стручњак за кодирање да бисте примијенили обраду природног језика с Python-oм. Алати као што је NLTK садрже читаве библиотеке скупова података и туторијума и нуде унапријед дефинисане функције и моделе који могу да се интегришу у уобичајене NLP задатке и подзадатке, као што су токенизација и семантичко резоновање, тачније способност да се дође до логичног закључка на основу чињеница извучених из текста.

За шта се користи обрада природног језика?

Данас се NLP користи у широком спектру свакодневних апликација и проналази нове могућности за употребу у различитим секторима, као што су здравство и финансије. Ево неких од најчешћих NLP апликација и области у којима се може срести обрада природног језика у AI-ју:

·         Четботови и виртуелни асистенти: апликације које покреће вјештачка интелигенција, као што су Сири и Алекса, користе NLP технике за интеракцију са корисницима кроз разговоре на природном језику.

·         Језичко превођење: NLP модели могу да се тренирају на великим количинама двојезичних података, што ће их оспособити да могу прецизно превести текст узимајући у обзир граматичка правила и контекстуалне нијансе.

·         Претраживачи: Системи за одговарање на питања, као што су претраживачи, користе NLP алгоритме да разумију питања која постављају корисници и да им дају релевантне одговоре. Ови системи анализирају контекст питања, идентификују кључне информације, претражују релевантне документе или базе знања и дају прецизне одговоре на упит корисника.

·         Филтрирање е-поште: Инбокс препун непрочитаних порука е-поште представља проблем с којим се много људи често сусреће. NLP се користи за филтрирање е-поште и разврставање у различите категорије. Најнапредније технологије за откривање нежељене поште, односно спама користе могућности класификације текста NLP-а за скенирање е-поште у потрази за текстуалним елементима који указују на присуство нежељене поште или phishing-а.

NLP је такође постао незамјенљив алат у различитим секторима, на револуционаран начин мијењајући модел по којем комуницирамо с технологијама:

·         Здравство: NLP је од суштинског значаја у здравственој индустрији јер омогућава ефикасне анализе медицинске документације, података о пацијентима и клиничких биљешки. Помаже у побољшању дијагностике, идентификацији образаца, предвиђању исхода и оптимизацији цјелокупне његе пацијената.

·         Финансије: NLP игра кључну улогу у финансијској индустрији захваљујући аутоматизацији задатака који су се претходно обављали ручно, као што су анализа финансијских извјештаја, најновијих вијести из области финансија и повратних информација клијената. Омогућава анализу осјећаја, откривање превара, процјену ризика и персонализацију финансијских препорука.

·         Кориснички сервис: NLP је од суштинског значаја за одјељења за корисничку подршку јер омогућава четботовима и виртуелним асистентима да разумију и благовремено одговарају на упите купаца, што побољшава задовољство купаца и смањује радно оптерећење службе за подршку корисницима.

·         Е-трговина: NLP се користи у индустрији е-трговине у различите сврхе, као што су препоруке производа на основу корисничких преференција и историје претраживања. Такође помаже у анализи осјећаја у рецензијама купаца да би се разумјело њихово мишљење о одређеним производима и услугама.

·         Правне услуге: NLP помаже професионалцима из правног сектора тако што аутоматизује задатке као што су анализа уговора и преглед правних докумената, чиме се штеди вријеме и труд.

·         Образовање: NLP доноси велике предности образовном сектору јер омогућава примјену интелигентних система подучавања који персонализују искуства учења код ученика.

·         Људски ресурси: NLP помаже одјељењима за људске ресурсе да обављају задатке као што су анализа биографије, преглед подобности кандидата и анализа осјећаја код повратних информација добијених од запослених.

Потешкоће и ограничења обраде природног језика

Као и свака сложена област и NLP се суочава с одређеним потешкоћама. Алгоритамска сложеност NLP задатака може да представља значајно ограничење, на примјер. Обрада веома великих количина текстуалних података захтијева значајну рачунарску снагу и много времена, што отежава анализу у реалном времену или скоро у реалном времену. Још један изазов који треба превазићи је побољшање ефикасности и брзине NLP алгоритама. Међутим, изазови попут оних наведених у наставку такође представљају огромне могућности за иновације и раст.

·         Ограничено контекстуално разумијевање и памћење: NLP модели често имају потешкоћа у тумачењу или памћењу значења ријечи или фраза на основу контекста у којем се те ријечи или фразе користе. Овај проблем може довести до погрешних тумачења или нетачне анализе текстуалних података.

·         Двосмисленост и полисемија: Многе ријечи и фразе имају вишеструка значења, што отежава моделима NLP-а да прецизно одреде намјеравану употребу језичке јединице у датом контексту. Ова потешкоћа може довести до погрешних анализа или неспоразума.

·         Језичке варијације и идиоми: Велика разноликост језика и њихових регионалних варијација - различити дијалекти, идиоми, сленг, колоквијални изрази - за NLP моделе компликује анализу и тачно тумачење текстова према различитим језичким контекстима. Истраживачи раде на томе да непрестано ажурирају ове моделе и прилагођавају их еволуцији језика.  

·         Недостатак здравог разума: Ако људи могу да извуку имплицитне информације из текста захваљујући својој општој култури и здравом разуму, NLP моделима често недостаје ова способност. Овај јаз омета способност ових модела да разумију нијансе текста или да дају тачна предвиђања на основу имплицитних информација.

·         Квалитет података и пристрасност: Квалитет података који се користе за обуку NLP модела игра кључну улогу у перформансама резултата. Пристрасни или непотпуни скупови података могу довести до једнако пристрасних резултата и  погоршања предрасуда и стереотипа у друштву.

·         Питања етике и приватности: Повећање употребе NLP-а у различитим апликацијама довело је до пораста етичких питања и забринутости за приватност. Теме као што су приватност, безбједност и злоупотреба података у NLP технологији постављају важна питања у вези с одговорним развојем и примјеном NLP система.

Савладавање хаоса

Суочени с растућом интеграцијом NLP модела у критичне секторе, као што су здравство, финансије или транспорт, од суштинског значаја је да се обезбиједе њихова безбједност, поузданост и етичка употреба. Међународни стандарди нуде у том погледу оквир конзистентности и квалитета у различитим употребама, посебно у различитим апликацијама NLP-а. Израда намјенских стандарда вјештачке интелигенције, попут оних које је развила експертска група ISO/IEC JTC 1/SC 42, наглашава посвећеност ISO-а да обезбиједи да се AI технологије развијају и користе на одговоран и ефикасан начин.

ISO/IEC 42001 систем управљања вјештачком интелигенцијом

ISO/IEC 23894 AI– Упутство за управљање ризиком

Као дио проширеног AI програма рада, истражује се заједничка иницијатива о системима за обраду природног језика, у сарадњи са ISO/TC 37, стручним комитетом за језик и терминологију. Ова иницијатива има користи од широког спектра стручности у области вјештачке интелигенције, која покрива и говорни и писани језик и обухвата бројне учеснике широм свијета. Проширење ISO-овог програма рада одражава значај међународних стандарда као рјешења за одговорно усвајање технологије.

Каква је будућност обраде природног језика?

NLP је спреман да потпуно редефинише дигиталну комуникацију, побољшавајући нашу способност да комуницирамо не само с компјутерима, већ и међусобно. Његова будућност обећава још даљњу интеграцију с другим AI областима, што ће побољшати његове могућности. Појава неуронских мрежа у NLP-у, на примјер, већ трансформише начин рада код претраживања. Док су раније њихови резултати били прикупљани из база података, данас неуронске мреже претражују и нуде најрелевантније резултате на основу историје интеракција корисника с компјутером. С временом ће ова способност постати још прецизнија.  

Међутим, од суштинске је важности да се позабавимо легитимним забринутостима које изазива ова технологија да би се безбиједило да служи интересима свих нас. Ако то можемо да урадимо, уз употребу ригорозних стандарда који су добро постављени и проведени, онда NLP може помоћи у изградњи будућности у којој AI и људска интелигенција раде у хармонији за заједнички напредак.“