(자료=OECD, Introducing the OECD AI Capability Indicators)
(자료=OECD, Introducing the OECD AI Capability Indicators)

경제협력개발기구(OECD)가 교육연구혁신센터(CERI)와 협력해, 인간의 능력과 AI의 능력을 비교해, 일반인공지능(AGI)의 발전 수준을 측정할 수 있는 프레임워크를 제시했다.

OECD가 3일 발표한 '인공지능 역량 지표 소개(Introducing the OECD AI Capability Indicators)' 보고서는 CERI의 '인공지능과 미래의 기술(AIFS)' 프로젝트의 하나로, 지난 5년간 50명 이상의 전문가들과 협력해 개발한 지표의 베타 버전을 소개하고 있다. 

정책 입안자들이 AI가 교육, 노동, 공공 분야에 미칠 잠재적 영향을 이해하고 정책 설계에 도움을 주기 위한 목적으로 개발됐다고 소개했다.

각 지표는 총 5단계 구성됐으며, 1단계는 AI 시스템이 오랫동안 해결해 온 '사소한' 능력을 나타내고, 5단계는 해당 인간 능력의 모든 측면을 복제할 수 있는 최고 수준의 성능을 나타낸다. 

인간의 주요 능력을 표현하는 9가지 항목에서 현재 AI는 인간의 작업 능력에 미치지 못하는 2~3단계로 구분됐다. 

특히 ▲사회적 상호작용(Social interaction) ▲문제 해결 (Problem-solving) ▲메타인지 및 비판적 사고 (Metacognition and critical thinking) ▲조작 (Manipulation) ▲로봇 지능 (Robotic intelligence) 등에서 2단계로 분류됐다. 이는 AI가 제한된 환경에서 특정 작업에만 기능할 수 있다는 뜻이다.

그외 ▲언어(Language) ▲창의성(Creativity) ▲지식·학습·기억 능력(Knowledge, learning and memory)▲시각인식(Vision) 등에서는 3단계, 즉 특정 작업에서 인간 수준의 능력을 보여주는 것으로 나왔다.

보고서는 오픈AI의 'GPT-4o'와 같은 모델의 언어 능력도 3단계의 하한선에 해당하며, 환각을 극복해야 할 핵심 과제로 지적했다. 

그러나, 이번 지표는 수치에 대한 확실한 기준이 없는 정성적 평가에 불과하다는 평이다. OECE 역시 이번 보고서는 '베타 버전'으로, 이를 개선해 AI 연구자들이 AI 능력을 평가할 수 있는 테스트를 설계하는 것이 목표라고 밝혔다.

멀티모달과 로보틱스, 정서 인식 등의 지표를 추가한 정식 버전은 2026년 초 발표될 예정이다. 

박수빈 기자 sbin08@aitimes.com

저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지