Smeće unutra, smeće van: važnost kvalitetnih podataka u vještačkoj inteligenciji
IEC urednički tim
IEC vijest na engleskom jeziku možete pročitati ovdje.
Zamislite alat za regrutaciju koji preporučuje samo muškarce ili chatbot koji izbacuje rasističke tvitove. Ili online alat za procjenu cijena nekretnina koji je toliko pogriješio da je doveo do gubitka od preko 300 miliona američkih dolara na tržištu nekretnina.
To su samo neki od stvarnih primjera kako loši podaci uneseni u AI sisteme mogu imati katastrofalne posljedice. Ne samo da loši podaci daju loše rezultate, već mogu uzrokovati i tzv. „halucinacije” u AI modelima, gdje sistem jednostavno izmišlja informacije.
Iako su takve greške rijetke, one ukazuju na potrebu da podaci korišteni u AI modelima budu što je moguće kvalitetniji, kako bi AI mogao nastaviti pozitivno doprinositi društvu na mnoge načine. Međutim, pitanje je kako to postići?
Jedan od načina za poboljšanje kvaliteta podataka je kroz sistem upravljanja kvalitetom podataka. Kroz pružanje smjernica i procesa za kontinuirano poboljšanje kvaliteta podataka, ovaj sistem osigurava da su podaci koji se koriste odgovarajući. On također nudi načine za mjerenje kvaliteta, kao i mogućnost audita i dobrog upravljanja.
„Kvalitet podataka je srž AI sistema”, rekao je Wael William Diab, predsjedavajući ISO/IEC-ovog komiteta za AI, SC 42. „Osiguravanje visokog nivoa kvaliteta je ključno za omogućavanje široke primjene odgovorne AI tehnologije.”
Mnoge organizacije već imaju procese za upravljanje kvalitetom podataka, ali modeli mašinskog učenja u AI-u imaju specifične zahtjeve. Iz tog razloga SC 42 je nedavno sastavio seriju međunarodnih standarda koji se bave kvalitetom podataka iz svih uglova. Ti standardi nude zahtjeve i smjernice za poboljšanje kvaliteta podataka za AI i pridružene analitičke sisteme.
Serija standarda ISO/IEC 5259 osigurava model za kvalitet podataka, načine mjerenja kvaliteta podataka, definicije o tome šta je kvalitet podataka, kao i primjere i slučajeve upotrebe. Ova serija uključuje elemente kao što su karakteristike kvaliteta podataka, aspekti koji često izazivaju probleme i specifične metode za upravljanje kvalitetom podataka tokom njihovog životnog ciklusa.
Također se bavi upravljanjem kvalitetom podataka, kako bi se organizacijama pomoglo da imaju odgovarajuće kontrole za praćenje izvora podataka i njihovog korištenja, te da se pozabave pitanjima odgovornosti i transparentnosti. To će pomoći u izgradnji povjerenja u AI sisteme i dodatno smanjiti greške.
Neki dijelovi ove serije su već objavljeni, a očekuje se da će ostali biti objavljeni u narednim mjesecima.
Saznajte više o radnoj grupi koja razvija seriju u ovom kratkom videu.