AI 기술로 캡션 정확도 개선…기존 모델보다 성능 2배 향상
시각장애인용 무료 앱 ‘시잉 AI(Seeing AI)’에 추가
올해 말 MS 워드, 아웃룩, 파워포인트용으로 출시 예정

(사진=Microsoft).
(사진=마이크로소프트(Microsoft)사).

달랑 사진만으로는 부족할 때가 있다. 사진을 올리고 밑에 캡션(caption)을 달아야 하는데 귀찮다고 생각한 적이 있을 것이다. 그렇다고 사진 설명이 없거나 부실하면 오해가 생기기 십상이다. 특히 정보 전달 목적으로 올린 사진이라면 캡션은 필수다. 그래도 캡션 달기 귀찮아 하는 사람들을 위해 자동으로 캡션을 작성해 주는 인공지능(AI) 기술이 나왔다.

마이크로소프트(MS) 연구팀이 때로는 사람보다 정확하게 사진 캡션을 생성할 수 있는 AI 시스템을 개발했다고 15일(현지시간) 네덜란드 IT 전문매체 TNW 등 외신이 전했다. MS 측에 따르면 새로운 이미지 캡션 처리 AI 시스템은 마치 사람처럼 아니, 일부 테스트에서는 오히려 사람보다도 더 정확하게 사진을 묘사해냈다.

이번 모델 기능은 시각장애인을 위해 개발한 무료 앱 ‘시잉 AI(Seeing AI)’에 추가됐다. 해당 앱은 스마트폰 카메라를 이용해 텍스트를 읽고 사람을 식별하고 사물과 주변 환경을 설명해준다. 현재 앱 개발자들도 ‘애저 코그니티브 서비스(Azure Cognitive Services)’의 컴퓨터 비전 API를 통해 이용할 수 있다. 올해 말에는 MS 워드와 아웃룩, 파워포인트 용으로 출시될 예정이다.

해당 모델은 웹페이지와 문서 이미지 설명을 위한 대체 텍스트(alt text)를 생성할 수 있다. 이는 시각장애인에게는 매우 중요한 기능이다. 대체 텍스트는 시각장애인의 웹 접근성을 높이는 방법 가운데 하나다.  이미지를 시각장애인이 이해할 수 있도록 텍스트가 아닌 콘텐츠를 동일한 의미로 전달될 수 있도록 설명해주는 글이나 문구를 말한다.

MS는 2015년 이후 제품에 사용된 기존 캡션 처리 모델보다 성능 면에서 정확성을 2배 더 개선했다고 설명했다. 비록 매번 완벽한 결과물을 도출해내는 것은 아니나 꽤 높은 기술 수준을 보였다는 평가다. 실제로 기존 모델과 신규 모델이 다음 사진에 대해 어떤 캡션을 다는지 살펴보면 알 수 있다.

(사진=Microsoft).
(사진=마이크로소프트(Microsoft)사).
(사진=Microsoft).
(사진=마이크로소프트(Microsoft)사).

기존 모델은 첫 번째 이미지를 ”노트북을 사용하는 테이블에 앉아 있는 사람“이라고 표현한 반면, 신규 모델은 ”현미경을 사용하고 있는 사람“이라고 묘사했다. 두 번째 사진의 경우 기존 모델은 ”스케이트보드를 타고 건물 측면을 오르고 있는 남자“라고 했으나, 신규 모델은 ”공을 잡고 있는 야구 선수”라고 설명했다.

[관련기사] 마이크로소프트, AI·AR 통한 시각장애인 지원 프로젝트 연구 박차

[관련기사] 구글, 시각장애인용 '스마트안경' 개발…"AI가 외국어도 '척척'"