TrackingAI test het IQ van AI tools. De test bestaat uit vragen die AI’s vaak moeilijk vinden en wordt verbaal afgenomen. Voor AI-modellen die beelden kunnen verwerken (“VISION models”) worden de testvragen als afbeelding gepresenteerd. Als de AI een vraag weigert te beantwoorden, wordt deze 10 keer herhaald. Als de AI alle 10 keer weigert, wordt de meest recente keer dat de AI de vraag wel beantwoordde gebruikt voor de score. TrackingAI is van plan om in de toekomst een metriek toe te voegen die laat zien welke AI’s helemaal niet bereid waren om bepaalde vragen te beantwoorden.
Zoals uit de grafiek blijkt is OpenAI ‘de slimste’ en zit op een IQ van 120.
Tracking AI is van origine een website die de politieke vooringenomenheid en bias in AI-chatbots in de gaten houdt. De site is opgericht door Maxim Lott, die als doel heeft om gebruikers te informeren over de ideologieën van de AI’s die ze gebruiken. TrackingAI wil gebruikers helpen om over te stappen naar minder bevooroordeelde AI’s, of naar AI’s met filosofieën die dichter bij hun eigen liggen.
De site gebruikt de Political Compass-test om de politieke standpunten van AI’s in kaart te brengen. Deze test, gebaseerd op een al decennia gebruikte vragenlijst, wordt door Lott als nauwkeurig genoeg beschouwd. De antwoorden van de AI’s worden vergeleken met die van mensen, om te zien hoe ze scoren op de politieke assen. De site laat zien dat de meeste AI’s economisch links en sociaal libertair zijn, maar sommige AI’s zijn veel extremer dan andere. Claude is een van de meer gematigde modellen, terwijl Google’s Bard een van de meest extreme linkse modellen is.
De politieke bias van een AI wordt gevormd door de databases waarop ze getraind zijn en de menselijke feedback die ze krijgen. AI-makers kunnen hun AI’s gematigder maken door meer conservatief materiaal toe te voegen aan de trainingsdata, of door meer conservatieve menselijke beoordelaars in te zetten.