Смеће унутра, смеће ван: важност квалитетних података у вјештачкој интелигенцији
IEC уреднички тим
IEC вијест на енглеском језику можете прочитати овдје.
Замислите алат за регрутацију који препоручује само мушкарце или chatbot који избацује расистичке твитове. Или online алат за процјену цијена некретнина који је толико погријешио да је довео до губитка од преко 300 милиона америчких долара на тржишту некретнина.
То су само неки од стварних примјера како лоши подаци унесени у AI sisteme могу имати катастрофалне посљедице. Не само да лоши подаци дају лоше резултате, већ могу узроковати и тзв. „халуцинације” у AI моделима, гдје систем једноставно измишља информације.
Иако су такве грешке ријетке, оне указују на потребу да подаци коришћени у AI моделима буду што је могуће квалитетнији, како би AI могао да настави позитивно да доприноси друштву на многе начине. Међутим, питање је како то постићи?
Један од начина за побољшање квалитета података је кроз систем управљања квалитетом података. Кроз пружање смјерница и процеса за континуирано побољшање квалитета података, овај систем обезбјеђује да су подаци који се користе одговарајући. Он такође нуди начине за мјерење квалитета, као и могућност аудита и доброг управљања.
„Квалитет података је срж AI система”, рекао је Wael William Diab, предсједавајући ISO/IEC-овог комитета за AI, SC 42. „Осигуравање високог нивоа квалитета је кључно за омогућавање широке примјене одговорне AI технологије.”
Многе организације већ имају процесе за управљање квалитетом података, али модели машинског учења у AI-у имају специфичне захтјеве. Из тог разлога SC 42 је недавно саставио серију међународних стандарда који се баве квалитетом података из свих углова. Ти стандарди нуде захтјеве и смјернице за побољшање квалитета података за AI и придружене аналитичке системе.
Серија стандарда ISO/IEC 5259 обезбјеђује модел за квалитет података, начине мјерења квалитета података, дефиниције о томе шта је квалитет података, као и примјере и случајеве употребе. Ова серија укључује елементе као што су карактеристике квалитета података, аспекти који често изазивају проблеме и специфичне методе за управљање квалитетом података током њиховог животног циклуса.
Такође се бави управљањем квалитетом података, како би се организацијама помогло да имају одговарајуће контроле за праћење извора података и њиховог коришћења, те да се позабаве питањима одговорности и транспарентности. То ће помоћи у изградњи повјерења у AI системе и додатно смањити грешке.
Неки дијелови ове серије су већ објављени, а очекује се да ће остали бити објављени у наредним мјесецима.
Сазнајте више о радној групи која развија серију у овом кратком видеу.