LG AI연구원의 연구 리더들이 AI 토크 콘서트에서  질의응답을 진행하고 있다. 
LG AI연구원의 연구 리더들이 AI 토크 콘서트에서 질의응답을 진행하고 있다. 

LG AI 연구원이 세계 최고 수준의 '바이오 케미컬 대형언어모델(LLM)'을 만들겠다고 선언했다. 차별화한 전문성을 바탕으로 글로벌 LLM 경쟁에서 우위를 점하겠다는 전략이다. 

LG AI연구원(원장 배경훈)은 19일 'LG AI 토크 콘서트'에서 초거대 멀티모달 AI '엑사원 2.0'을 공개한 뒤 질의응답 시간을 갖고 구체적인 전략과 비전을 공유했다.

행사의 키워드는 '전문성'이었다. LG AI연구원은 최근 각종 행사에서 유스 케이스(Use Cse) 구축을 바탕으로 한 전문성 확보에 집중하고 밝혔던 터다. 또 이번 주 미국에서는 엔비디아로부터 5000만달러(약 637억원)를 투자받은 리커전과 6000만달러(약 760억원) 투자를 유치한 커절리 등 인공지능(AI) 신약 개발 업체가 화제를 일으킨 바 있다.

이날 공개한 엑사원 기반 플랫폼도 맥락을 같이 했다. 

우선 '엑사원 유니버스'는 전문가용 대화형 AI 플랫폼으로 전문성이 요구되는 분야의 질문에 대해 근거에 기반한 정확한 답변을 생성하는 AI 플랫폼이다. 화학, 바이오, 제약, 의료, 금융, 특허 등 도메인별 특화 서비스가 구축 중이다. 

'엑사원 디스커버리'는 화학 및 바이오 분야 발전 앞당길 신소재 및 신물질, 신약 개발 플랫폼이다. ▲전문 문헌 검토는 물론  ▲소재 구조 설계 ▲소재 합성 예측까지 진행, 기존 1만회가 넘었던 합성 시행착오를 수십회로 줄이고 연구개발 소요 시간은 40개월에서 5개월로 단축해 준다.

배경훈 LG AI연구원 원장은 "오늘 새벽에도 메타가 '라마 2'를 출시하는 등 글로벌 LLM 경쟁이 치열해지고 있다"며 "무엇보다 실제 산업현장에서 생성 AI가 적용, 의미있는 성공 사례를 만들어 나가는 것이 가장 중요하다"고 밝혔다.

그 대표 사례로 '바이오 케미칼 분야의 LLM'을 꼽았다. 배 원장은 "바이오 케미컬과 헬스케어 분야에서 1차적으로 자리 잡으려면 관련 문헌을 쉽고 빠르게 이해할 수 있고, 그걸 통해 새로운 정보를 찾고, 새로운 물질을 발굴해 나가는 것들을 잘해 나가야 한다"며 "그런 측면에서 LLM의 역할이 우선된다"고 말했다. 

엑사원 디스커버리를 통한 데이터 구축 및 실제 사례와의 정확도에 대해서는 현재  25가지 종류의 화합물에 대한 예측이 가능하다고 밝혔다. "예측 모델 결과와 실제 실험값과 일치하는 정도는 80~99%로 다양하다"고 말했다. 앞으로 계속 양질의 데이터를 늘려가면서 모델의 신뢰성을 끌어올릴 것이라고 덧붙였다. 

생성 AI의 문제인 환각 현상을 줄이기 위해 전문 데이터를 동원하는 일반적인 방법 이외에도 '구조적인 해결책'을 도입 중이라고도 밝혔다. 아예 처음부터 질문한 내용과 가장 유사한 문서를 찾아오게 하고, 그 안에서 필요한 정보들을 인코더로 이해하고, 그 내용을 바탕으로 최종적으로 디코더로 생성하는 식이다.

기술적 노력과 더불어 전문가의 검증, 생성물에 대한 근거를 명확하게 밝혀 주는 것 등을 병행해 모델의 신뢰도를 높이겠다고 강조했다.

바이오 케미칼 분야에 이어 금융이나 특허, 법률 분야로도 LLM 전문성을 계속 확장하겠다고도 전했다. 며칠 전 특허청과 특허 전문 AI 모델 개발을 발표한 것이 좋은 예다. 아직 공개할 수준은 아니지만, 다른 분야와도 협업을 진행 중이라고 밝혔다.

학습 데이터에 대한 질문도 나왔다. 엑사원 2.0이 특허와 논문 등 약 4500만건의 전문 문헌과 3억5000장의 이미지를 학습했다고 밝혔는데, 이런 수치가 다른 LLM에 비해 어느 정도인가 하는 점이었다.

이에 대해서는 "오픈AI처럼 광범위한 영역에 오픈된 데이터를 많이 학습하는 것보다는 전문 데이터를 많이 넣는 것이 중요하다"며 "오픈AI보다 2~3배 정도는 많은 전문 데이터를 포함하고 있다"고 밝혔다. 엑사원의 전체 학습데이터 중 50~90%가 전문 데이터라고도 설명했다. 

LG AI 토크 콘서트홀 뒷편에 마련된 엑사원 체험 부스에 몰린 취재 인파 
LG AI 토크 콘서트홀 뒷편에 마련된 엑사원 체험 부스에 몰린 취재 인파 

이런 전문성으로 LG 그룹 전체의 사업에도 큰 도움이 될 것이라고 전했다. . 

"LG 디스플레이에는 OLED 물질이 중요하고, 배터리 제조에는 배터리 소재가 중요하기 때문에 LG 화학이 연구를 진행하며 새로운 소재를 찾아내고 있다. 좋은 소재는 부품 경쟁력, 완제품 경쟁력으로 이어져서 결국 소비자에 더 나은 제품을 제공하게 된다"며 "전문 LLM을 통해 소재 발굴이나 신약 개발 부분에 집중하는 이유이기도 하다"고 말했다. 

"챗GPT가 나온 이후 다양한 사용 사례가 나오고는 있지만 실제 산업에서 사용한 사례는 많지 않다"며 "그래서 빅테크와 모델 자체의 경쟁을 벌이는 것보다 미래 잠재력이 높은 사업 분야에 집중, 양질의 데이터와 상공 사례를 먼저 만들어내는 것을 현실적으로 봤다"며 LLM 전략의 큰 틀을 설명했다.

마지막으로 "AI 윤리 및 투명성을 확보하는 것은 중요하다"며 이미지 생성 AI 구축을 위해 저적권 데이터만 학습한 사례를 들었다. 

"그러나 무엇보다 중요한 것은 경쟁력 강화를 위해 AI 활용법과 기술력, 데이터, 인프라 등을 고도화하는 등 기술적인 부분에서 문제없이 잘 준비하는 것이 사람들의 우려를 해소하는 방법"이라며 "경쟁력 있는 대한민국의 AI를 만들어 가고 싶다"고 마무리했다.

이주영 기자 juyoung09@aitimes.com

관련기사
저작권자 © AI타임스 무단전재 및 재배포, AI학습 및 활용 금지