ML커먼스는 2일(현지시간) 'ML퍼프(MLPerf) 5.0' 추론 벤치마크에 인공지능(AI) 실행 속도를 측정할 수 있도록 두 가지 새로운 테스트를 공개했다. 이를 통해 최첨단 하드웨어와 소프트웨어의 AI 애플리케이션 실행 속도를 평가할 수 있다.
새롭게 추가된 벤치마크 중 하나는 메타의 '라마 3.1 405B' 모델을 기반으로 하며, 일반적인 질의응답, 수학 문제 해결, 코드 생성 등의 성능을 평가한다. 이 테스트는 대규모 쿼리를 처리하고 여러 출처에서 데이터를 종합해 응답을 생성하는 시스템의 역량을 측정하는 것이 목표다.
이 테스트에서 엔비디아는 최신 '블랙웰' 칩이 탑재된 AI 서버를 활용해 성능을 비교했다. 이 서버에는 72개의 블랙웰 GPU가 탑재돼 있지만, 구형 GPU와의 직접 비교를 위해 동일한 8개의 GPU만 사용했다. 그 결과, 성능이 2.8배에서 최대 3.4배까지 향상된 것으로 나타났다.
두번째 벤치마크는 '라마 2 70B 인터렉티브' 모델을 기반으로 하며, 기존 '라마 2 70B' 벤치마크에 저지연(low-latency) 요구사항을 추가해 시스템 성능을 평가한다.
이 벤치마크는 인터랙티브 챗봇, 차세대 추론 시스템, 그리고 에이전트 기반 AI 시스템으로의 산업적 변화 흐름을 반영하고 있다. 따라서 테스트 대상 시스템은 첫번째 토큰 생성 시간(TTFT) 및 출력 토큰당 생성 시간(TPOT) 등 엄격한 응답 성능 기준을 충족해야 한다.
테스트 결과, 사용자들이 AI를 더 빠르고 자연스럽게 이용할 수 있도록 토큰 생성 속도를 1초에 2050개 수준(TPOT 2050ms)으로 맞추는 것이 중요한 것으로 나타났다.
또 많은 사람이 동시에 사용할 때도 일정한 속도를 유지하기 위해, 99%의 경우 최소 1초에 25개 이상의 토큰(TPOT 40ms)이 생성되도록 기준을 정했다. 이를 통해 AI가 사용자가 많아도 끊김 없이 빠르게 응답할 수 있도록 했다.
추가로 AI가 첫번째 응답을 주는 시간(TTFT)도 줄여야 했다. 그래서 99%의 경우, 450ms(0.45초) 이내에 첫 응답이 나와야 한다는 목표를 설정했다. 이를 통해 AI가 더 즉각적인 대화를 제공할 수 있을 것으로 기대된다는 평이다.
ML커먼스는 "이번 결과는 AI 커뮤니티가 생성 AI 시나리오에 많은 관심과 노력을 집중하고 있으며, 생성 AI에 최적화된 최근 하드웨어와 소프트웨어 발전의 조합으로 인해 지난 1년 동안 극적인 성능 향상이 이루어졌다는 점을 강조한다"라고 밝혔다.
박찬 기자 cpark@aitimes.com
