(사진=셔터스톡)
(사진=셔터스톡)

'1조달러짜리 질문(trillion-dollar question)'이라는 말이 있습니다. 경제와 안보, 기후 변화, 사회 문제 등 엄청난 결과를 일으킬 수 있는 중요하고 복잡한 문제를 강조하는 데 사용됩니다. 특히, 복합적이고 거대한 사안을 가리키는 데 사용됩니다. "코카콜라는 왜 펩시보다 더 나은가"와 같은 질문도 포함됩니다.

최근 실리콘 밸리의 대표적인 1조달러 질문은 이것입니다. "앤트로픽은 왜 다른 곳보다 코딩을 잘하는가."

정말 1조달러가 걸렸다고도 볼 수 있습니다. 이 회사는 지난 2월 기업 가치 615억달러로 투자 유치에 성공했는데, 며칠 전에는 투자자들로부터 기업 가치 1000억달러로 새로운 투자 라운드에 나설 것을 요청받았습니다. 이런 상승세면 몇년 뒤 1조 기업이 될지도 모릅니다.

커서나 레플릿, 러버블 등 주요 바이브 코딩 스타트업들은 빠짐없이 '클로드'를 가져다 씁니다. 다른 모델보다 압도적인 채택률을 보입니다.

이를 뛰어 넘으려는 다른 기업의 노력도 치열합니다. 심지어 일론 머스크 CEO는 '그록 4' 출시를 앞두고, 벤치마크에서 앤트로픽을 이기기 위해 외부 전문가까지 단기 고용한 것으로 알려졌습니다.

요즘 앤트로픽이 등장하는 인터뷰도 부쩍 늘었습니다. 비결을 물어보는 질문이 많습니다.

대표적인 것이 오픈AI에서 'GPT-3' 논문 작성에도 참여한 벤 만 앤트로픽 공동 창립자가 한 팟캐스트에 밝힌 내용입니다. 그는 먼저 최근 상황을 즐기는 듯했습니다.

"다른 회사들은 꽤 오랫동안 우리 코딩 역량을 따라잡으려고 애썼지만, 결국 그러지 못했다"라며 "솔직히 그들이 따라잡지 못했다는 게 좀 놀랍긴 하지만, 어쩔 수 없다"라고 말했습니다.

코딩 비밀을 알려 달라고 하자, 그가 내놓은 것은 '강화 학습(RL)' 방식이었습니다. 일반적인 RL은 오픈AI가 'GPT-3.5'에 사용한 것으로 알려지며 인기를 끈 '인간 피드백을 통한 강화 학습(RLHF)'입니다.

만 창립자는 "모델을 더 많이 훈련하고 규모를 크게 확장할수록, 이런 피드백 비교에 기여할 만큼 충분한 전문성을 갖춘 사람을 찾기가 더 어려워졌다"라고 밝혔습니다. "코딩의 경우, 전문 소프트웨어 엔지니어가 아닌 사람은 어느 것이 더 나은지 판단하는 데 많은 어려움을 겪는다"라는 설명입니다.

그래서 앤트로픽은 'AI 피드백을 통한 강화 학습(RLAIF)'이라는 방법을 개발했다고 밝습니다. 사람이 AI 모델 출력을 평가하는 대신, 다른 모델이 분석을 수행하는 방식입니다.

이를 위해 앤트로픽은 평가 모델이 준수해야 할 원칙을 입력했습니다. 이것이 바로 앤트로픽의 시그니처인 '헌법 AI(Constitutional AI)'입니다. 이는 코딩뿐만 아니라, 클로드 1 출시 당시부터 적용된 가드레일이기도 합니다.

모델에 단순하게 지시 사항을 입력하는 것을 넘어, 별도 모델이 답변을 관리하는 것입니다. 여기에서 인간은 기본 원칙을 제공하고, 세부 사항은 모델이 응용하는 방식이기 때문에 '헌법'이라는 이름이 붙게 된 것입니다.

이를 코딩에도 적용했다는 말입니다. 즉, AI 모델에 '사용자가 요청하지 않은 많은 작업을 수행했는가'나 '이 코드는 유지 관리가 가능해 보이는가' 등과 같은 원칙을 제공하고, 모델이 이에 맞춰 출력을 검토한다는 것입니다.

특히, 코드는 일반적인 자연어 답변과 달리, 작동 여부로 정답인지 아닌지를 확인할 수 있습니다. 앤트로픽 모델에는 이런 장치가 내장됐다는 설명입니다.

또 많은 시도가 쌓이며 모델 전체 성능이 좋아진다고 밝혔습니다. 그는 의사였던 아버지의 사례를 인용했는데, 얼굴에 피부 질환이 있는 환자의 원인을 찾을 수 없었다는 것입니다. 그래서 환자의 얼굴을 여러 부분으로 나누고 다양한 치료법을 적용했는데, 한 부분이 좋아지면서 경험적으로 답을 찾을 수 있었다고 전했습니다.

다이앤 펜 앤트로픽 제품 관리 및 연구 책임자도 비즈니스 인사이더와의 인터뷰에서 이런 점을 강조했습니다.

"우리는 무수한 시행착오와 반복을 통해 근본적으로 좋은 코드가 어떤 모습인지 알아낼 수 있도록 만들었다"라며 "모델에 다양한 질문을 던져 코딩 문제에 대한 정답이 무엇인지 스스로 알아낼 수 있도록 하는 것이 핵심"이라고 말했습니다.

펜 책임자는 클로드가 도구를 잘 사용할 수 있다는 것도 코딩 성능과 관계가 있다고 설명했습니다. 코딩 프로젝트와 관련된 모든 내용을 기억하는 사람은 없으며, 코드나 문서, 수정 내역 등을 보관하는 깃허브 저장소는 규모가 매우 커서 불러내기 어렵다는 것입니다.

따라서 앤트로픽은 코딩 중 중요한 점만 따로 저장하는 외부 파일 시스템을 만들고, 모델이 이를 잘 활용할 수 있도록 학습했다고 소개했습니다. 이때 모델이 중요한 사항을 많이 기억하고 덜 중요한 내용은 무시하도록 훈련하는 것이 핵심이라고 덧붙였습니다. 이런 장치들이 몇가지 더 있다고 전했습니다.

인간 개발자들이 클로드에 요청한 자연어 데이터를 분석하는 것도 모델 성능을 높이는 데 아주 중요하다는 외부 의견도 등장했습니다. 기본적으로 LLM은 자연어 분석이 장점이기 때문입니다. 그리고, 그 역할을 담당하는 것이 지난 4월 출시한 '클로드 코드'입니다.

물론, 앤트로픽이 1조달러짜리 답을 상세하게 밝힌 것으로는 볼 수 없습니다. 소개된 방식은 이미 알려진 것으로, 다른 회사가 시도하지 않았을 리 없습니다.

다만, 펜 책임자가 말한 "많은 연구자와 아이디어, 기술이 참여한 수년간 노력의 결과"라는 것이 핵심으로 보입니다. 전문가들도 앤트로픽의 코딩 기술에는 여러 요소가 포함돼 있다고 분석합니다.

챗GPT의 성공으로 모두가 '언어'에 집중할 당시부터,. 앤트로픽은 코딩에 초점을 맞춘 결과라는 내용입니다. 지난해부터 코딩에 집중한 회사들과는 차이가 나는 것이 당연합니다.

이어 23일 주요 뉴스입니다.

‘K-AI 모델’ 참여 기업 핵심 전략은 '고성능 고효율'

정부의 국가대표 모델 구축 사업에 응모한 15개 컨소시엄이 사업 계획에서 일제히 '저비용'을 강조했다는 내용입니다. 효율을 중요하게 생각하는 것은 좋은데, 파운데이션 모델이라면 일정 규모 이상이 필요할 것으로 보입니다.

(사진=오픈AI)
(사진=오픈AI)

"챗GPT, 가장 큰 용도는 '학습'"...오픈AI, 생산성 보고서 발표

챗GPT 쿼리를 분석한 결과, 미국 사용자들은 무엇을 배우는 데 가장 많은 요청을 보낸 것으로 알려졌습니다. 그리고 글 작성이 두번째를 차지했습니다. 이를 합치면 학생이나 직장인이 자료를 수집하고 숙제나 보고서를 작성하는 용도가 가장 많은 것으로 보입니다.

딥시크, 중국서도 다운로드 급감..."단순 챗봇 시대 끝나"

딥시크가 불과 몇개월 만에 감소세로 돌아섰다는 내용입니다. 트렌드를 못 타는 것도 있지만, 업데이트 연기가 치명적입니다. 이런 점을 감안하면, 다른 챗봇과 점점 격차를 벌리는 챗GPT는 대단한 것으로 볼 수 있습니다.

AI타임스 news@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지