Smeće unutra, smeće van: važnost kvalitetnih podataka u vještačkoj inteligenciji

IEC urednički tim

IEC članak možete na engleskome jeziku pročitati ovdje.

Zamislite alat za regrutaciju koji preporučuje samo muškarce ili chatbot koji izbacuje rasističke tvitove. Ili online alat za procjenu cijena nekretnina koji je toliko pogriješio da je doveo do gubitka od preko 300 milijuna američkih dolara na tržištu nekretnina.

To su samo neki od stvarnih primjera kako loši podaci uneseni u AI sustave mogu imati katastrofalne posljedice. Ne samo da loši podaci daju loše rezultate, već mogu prouzročiti i tzv. „halucinacije” u AI modelima, gdje sustav jednostavno izmišlja informacije.

Iako su takve greške rijetke, one ukazuju na potrebu da podaci korišteni u AI modelima budu što je moguće kvalitetniji, kako bi AI mogao nastaviti pozitivno doprinositi društvu na mnoge načine. Međutim, pitanje je kako to postići?

Jedan od načina za poboljšanje kvalitete podataka je kroz sustav upravljanja kvalitetom podataka. Kroz pružanje smjernica i procesa za kontinuirano poboljšanje kvalitete podataka, ovaj sustav osigurava da su podaci koji se koriste odgovarajući. On također nudi načine za mjerenje kvalitete, kao i mogućnost audita i dobrog upravljanja.

„Kvaliteta podataka je srž AI sustava”, rekao je Wael William Diab, predsjedatelj ISO/IEC-ovog komiteta za AI, SC 42. „Osiguravanje visoke razine kvalitete je ključno za omogućivanje široke primjene odgovorne AI tehnologije.”

Mnoge organizacije već imaju procese za upravljanje kvalitetom podataka, ali modeli strojnog učenja u AI-u imaju specifične zahtjeve. Iz tog razloga SC 42 je nedavno sastavio seriju međunarodnih standarda koji se bave kvalitetom podataka iz svih kutova. Ti standardi nude zahtjeve i smjernice za poboljšanje kvalitete podataka za AI i pridružene analitičke sustave.

Serija standarda ISO/IEC 5259 osigurava model za kvalitetu podataka, načine mjerenja kvalitete podataka, definicije o tome što je kvaliteta podataka, kao i primjere i slučajeve uporabe. Ova serija uključuje elemente kao što su karakteristike kvalitete podataka, aspekti koji često izazivaju probleme i specifične metode za upravljanje kvalitetom podataka tijekom njihova životnog ciklusa.

Također se bavi upravljanjem kvalitetom podataka, kako bi se organizacijama pomoglo da imaju odgovarajuće kontrole za praćenje izvora podataka i njihova korištenja, te da se pozabave pitanjima odgovornosti i transparentnosti. To će pomoći u izgradnji povjerenja u AI sustave i dodatno smanjiti greške.

Neki su dijelovi ove serije već objavljeni, a očekuje se da će ostali biti objavljeni u narednim mjesecima.

Saznajte više o radnoj grupi koja razvija seriju u ovom kratkom videu.