Egzamin dla AI, którego nie zdałby żaden człowiek

W ramach projektu FrontierMath naukowcy opracowali egzamin matematyczny przeznaczony do testowania możliwości modeli sztucznej inteligencji. Zestaw zadań został tak skonstruowany, że żaden człowiek nie byłby w stanie samodzielnie go w pełni rozwiązać. Jedno z zadań przygotowanych przez dr. Bartosza Naskręckiego wymagało wiedzy zgromadzonej w ciągu 15 lat badań. Obecnie AI jest w stanie poradzić sobie tylko z nielicznymi pytaniami z tego zestawu.

W ostatnim półroczu laboratoria takie jak Google DeepMind i OpenAI wprowadziły modele AI, które bez trudu radzą sobie z zadaniami matematycznymi na poziomie matury. Dotychczasowe benchmarki do testowania zdolności matematycznych modeli stały się więc niewystarczające, co skłoniło naukowców do stworzenia nowego, znacznie trudniejszego egzaminu dla LLM. Tak powstał projekt FrontierMath, w którym dr Naskręcki z UAM uczestniczył aktywnie.

Projekt, koordynowany przez firmę Epoch AI, obejmuje kilka poziomów trudności. Dr Naskręcki współtworzył najtrudniejszy z nich – Tier 4. Obecne modele AI potrafią rozwiązać jedynie 4 z 50 problemów w tym poziomie, obejmujących pięć różnych dziedzin matematyki.

Źródło: https://naukawpolsce.pl/aktualnosci/news%2C109187%2Cpolski-matematyk-o-kulisach-egzaminu-dla-ai-ktorego-nie-zdalby-zaden

źródło: Uniwersytet im. Adama Mickiewicza w Poznaniu