“이미지 인식ㆍ생성AI, 언어기능 챗GPT 넘어 또 한번의 AI 도약 이룰 것”

입력
2023.07.26 18:30
수정
2023.07.26 19:08
24면
구독

김승환 LG 인공지능(AI)연구원 비전랩장

“LG ‘엑사원 2.0’ 등 이미지 생성AI 등장 잇달아”
“오픈AI 등 글로벌 개발 경쟁 속 국내 기업 출사표”

지난 3월 챗GPT 등장 이래 대중적으로는 대화형 인공지능(AI) 서비스가 폭발적 관심을 모으고 있다. 하지만 인간 성장에서 인지와 판단, 행동이 유기적으로 함께 발달하듯, AI모델(기능 분야)도 언어능력을 넘어 급속히 확장되는 중이다.

수많은 AI모델 중에서도 최근 뜨거운 관심과 국가, 기업 간 치열한 경쟁이 벌어지고 있는 분야가 이미지 인식ㆍ생성AI 모델이다. 언어를 이미지로 구현해 내고, 이미지를 언어로 기술하는 이 분야 AI의 글로벌 선두주자는 챗GPT를 내놓은 미국 오픈AI가 지난해 4월 선보인 ‘달리2(DALL-E2)’라고 할 수 있다.

우리 정보기업들도 글로벌 각축전에 속속 출사표를 던지고 있다. 얼마전 카카오브레인이 ‘칼로 2.0’을 서둘러 발표한 데 이어, ‘은인자중’하던 LG AI연구원도 최근 개량된 이미지 인식ㆍ생성AI 플랫폼이 포함된 초거대 멀티모달 AI ‘엑사원(EXAONE) 2.0’을 발표했다. 김승환 LG AI연구원 비전랩장으로부터 국내외 관련 기술개발 동향과 의의, 비전을 듣는다.

김승환 LG AI연구원 비전랩장은 이미지 인식·생성AI인 '아틀리에'가 "언어(텍스트)는 물론 이미지를 인식할 수 있고, 생성된 이미지를 디자이너와 함께 상호작용하며 보정해 나갈 수 있는 기능을 갖췄다"고 설명했다. 왕태석 선임기자

김승환 LG AI연구원 비전랩장은 이미지 인식·생성AI인 '아틀리에'가 "언어(텍스트)는 물론 이미지를 인식할 수 있고, 생성된 이미지를 디자이너와 함께 상호작용하며 보정해 나갈 수 있는 기능을 갖췄다"고 설명했다. 왕태석 선임기자


"'엑사원 2.0'은 기능별로 3개 플랫폼으로 재구성된 전문가용 초거대 AI"

-초거대 멀티모달 AI ‘엑사원(EXAONE) 2.0’을 발표했다. ‘엑사원 2.0’은 어떤 AI인가.
“2021년 12월 첫선을 보인 ‘엑사원’을 업그레이드한 AI다. 그동안 개량해 온 기능별 AI모델들을 유기적으로 묶어 3개의 플랫폼으로 재구성했다. 전문가용 대화형 AI플랫폼인 ‘유니버스’, 신소재ㆍ신물질ㆍ신약 개발 AI플랫폼인 ‘디스커버리’, 이미지 인식ㆍ생성AI 플랫폼인 ‘아틀리에’ 등이다. AI 기능 외에 컴퓨팅 프로세스 기술 면에서는 초거대 AI의 고비용 문제 해결을 위해 대규모 언어 모델과 멀티모달 모델의 경량화와 최적화 신기술에 리소스를 집중 투입해 경제성을 크게 높였다.”

-AI 프로세스 경제성 제고를 위한 노력 외에, 초거대 AI 구현을 위한 데이터 보강은 어느 정도 이루어졌나.

“연구원의 파트너십을 통해 확보한 특허, 논문 등 약 4,500만 건의 문헌 전문과 3억5,000만 장의 이미지를 학습했다. 여기서 이미지 학습이라는 건 그림이나 사진뿐만 아니라, 전문 문헌의 분자 구조, 수식, 차트, 테이블 등 비텍스트 정보까지를 AI가 읽고 학습할 수 있도록 했다는 뜻이다.”

"'멀티모달'은 인간의 인식처럼 언어와 시각, 오감을 활용해 AI와 소통하는 방식"

-‘엑사원 2.0’의 기능과 특성을 말하면서 ‘플랫폼’과 ‘모델’, ‘멀티모달’이라는 용어를 쓰고 있다. 각각 어떤 기술적 의미를 갖는가.

“‘AI모델’은 분야별로 나눠진 AI 기능의 최소 단위라는 정도의 설명이 가능할 것이다. 예를 들면 주어진 언어를 인식해 데이터에서 거기에 매칭되는 이미지들을 추출하고 융합해 최적의 이미지를 생성하는 기능 단위를 모델로 지칭할 수 있을 것 같다. ‘플랫폼’은 그런 AI모델들을 유기적으로 묶어 이미지와 관련된 훨씬 더 많은 기능을 수행할 수 있도록 구성한 AI모델의 집합체라고 할 수 있다. ‘멀티모달’은 AI의 인식과 관련된 개념인데, 현 단계의 AI는 주로 언어를 통해 인식한다. 챗GPT만 해도 텍스트로 입력된 대화에 반응하는 식이다. 하지만 인간의 인식은 비단 언어를 통해서만 이루어지는 건 아니다. 오히려 시각을 통한 인식이 전체의 90%를 차지한다는 분석이 있을 정도다. 나머지 인식경로는 청각 촉각 후각 등이 될 것이다. 결국 인식엔 오감이 작동하는 건데, AI의 인식을 인간처럼 언어와 이미지, 오감으로 할 수 있도록 추구하는 개념이 멀티모달이다. 엑사원은 오픈AI보다 앞서 멀티모달 콘셉트를 개발에 적용해 왔다고 할 수 있다.”

-2020년 미국 AI연구소 ‘오픈AI’의 ‘GPT-3’ 등장 이후 ‘엑사원 2.0’에 이르기까지 AI기술이 숨 가쁘게 진화하고 있다. 전반적으로 어떤 방향으로 가고 있으며, ‘엑사원 2.0’이 AI기술 발전에서 갖는 의미는.

“챗GPT 이래 다양한 생성형AI는 비록 언어능력에 머물러 있지만, 어떤 질문과 답변, 대화도 가능한 보편적 능력을 갖춘 ‘제너럴AI’의 원형을 구현하고 있다고 본다. 초거대 AI의 발전은 결국 궁극적인 제너럴AI를 향하고 있지만, 개발 주체별로 크게 두 가지 전략을 추구하고 있다. 하나는 챗GPT처럼 우선 제너럴AI의 큰 틀을 구축하면서 점차 기능모델을 보강하는 방식이고, 다른 하나는 각 기능모델별로 내실화를 꾀하면서 나중에 그걸 융합해 보다 완성도 있는 제너럴AI를 추구하는 방식이다. 현실에서는 두 가지 방식이 혼재하고 있다고 본다. 다만 LG AI연구원은 보다 완성도 높은 기능모델과 플랫폼을 먼저 개발하는 데 주력하고 있다. 이번에 발표한 3개 플랫폼처럼 우선 전문가나 기업이 믿고 쓸 수 있을 정도의 완성도 높은 플랫폼을 개발해 실질적 활용성을 높이면서 점차 제너럴AI로 가는 방식이다.”

아틀리에로 생성한 2D 풍경화와 3D 모델링 이미지.

아틀리에로 생성한 2D 풍경화와 3D 모델링 이미지.


"초거대 AI는 AI의 궁극적인 미래를 향해 기능모델별 분화발전이 진행 중"

-현재 글로벌 AI의 발전 수준은 궁극적인 AI의 미래와 비교해 어느 정도 수준이라고 평가하는가. 인간의 인지, 판단, 행동과 비교해 설명한다면.

“AI의 궁극적 미래를 단정하기는 쉽지 않다. 다만 인간과 비교할 경우, AI의 인지능력을 대화 또는 작업요구에 대한 이해, 또는 ‘인지적 이해’ 정도로 말한다면 기술적 완성도가 매우 높은 수준에 이르렀다고 볼 수 있다.

AI의 판단과 행동능력도 기본적 수준에는 도달했다고 본다. 하지만 ‘첨단적 난제’들이 아직 많이 남아 있다. 판단능력 부분에서는 지금 ‘할루시네이션(Hallucination)’이 숙제다. 이게 뭐냐 하면, 챗GPT의 경우 적어도 ‘그럴듯한 답’을 제시하도록 로직이 작동한다. 그렇다 보니 ‘세종대왕이 휴대폰을 집어던진 사건’을 물어봐도 ‘조선 세종 때 일이다…’로 시작되는 그럴싸한 답이 마치 사실처럼 제시되는 오류가 빚어진다. 그런 오류를 해소하는 게 과제라는 얘기다.

AI행동에서의 첨단적 난제는 교통사고 상황을 예로 들겠다. 밤에 차를 빠른 속도로 몰아 국도를 달리고 있는데 전방 3m 앞에 느닷없이 경운기가 나타났다. 차를 급정거하면 운전자가 다치고, 그대로 진행하면 경운기 운전자가 다친다. 핸들을 급회전해 고의로 가드레일에 부딪칠 수도 있지만, 반대 차선 진행 차량과 충돌할 수도 있다. 그럴 때 AI는 어떻게 판단할 건가 하는 문제 같은 게 남아 있기 때문에 아직 완전한 자율주행이 어렵다는 것이다. 결국 AI의 궁극적 미래가 언제 실현될지는 첨단적 문제들을 어떻게 푸느냐에 달려 있다고 본다.”

-‘엑사원 2.0’의 이미지 인식ㆍ생성AI 플랫폼인 ‘아틀리에’가 주목된다. 이미지 생성AI로는 이미 ‘달리2(DALL-E2)’가 호평을 받고 있고, 최근 카카오브레인에서도 ‘칼로 2.0’을 선보였다. ‘아틀리에’와 이미지 생성능력을 비교할 수 있겠는가.

“각각에 특정 이미지 생성을 지시할 경우, AI별로 이미지가 매우 다르게 나타나는 건 맞다. 하지만 그것만으로 이미지 생성능력의 우열을 따지는 건 너무 이르다고 생각한다. 예를 들어 ‘보름달이 뜬 밤 풍경’을 그려 내라고 할 경우, ‘달리2’는 서구적 관념이 많이 반영된 풍경을 그려 낸다면, 국내 AI들은 한가위 초가지붕 위에 보름달이 떠 있는 풍경을 그려 낼 수 있다는 얘기다. 따라서 AI의 이미지 생성능력은 어떤 이미지를 생성하건 거기에 작동한 생성논리의 수준이 어느 정도냐에 달린 거라고 본다. 데이터의 양과 질 못지않게 이미지 생성논리의 질적 수준이 생성 이미지의 질적 수준을 결정한다는 얘기다. ‘아틀리에’에는 언어와 이미지의 상관성을 조율하는 로직이 별도로 작동해 이미지 생성의 질을 높이는 데 기여하고 있다.”

"이미지 생성AI의 능력은 데이터의 양과 질, 생성논리의 질적 수준이 좌우"

-‘아틀리에’를 비롯한 지금의 이미지 생성AI들이 가상현실에서 쓰이는 3D 모델링 작업까지 해낼 수 있나.

“‘아틀리에’로 일부 시도도 했고 준비도 하고 있지만 아직 실용단계까지 나아가지는 못했다. 2D 이미지 생성보다 훨씬 많은 데이터와 로직이 필요하게 될 것이지만, 머지 않아 반드시 거기까지 진화할 것이다.”

-이미지 인식ㆍ생성AI에서 능력을 진화시키는 요소들은 무엇인가.

“이미지 생성AI뿐만 아니라, 모든 생성형AI에서 능력을 진화시키는 가장 큰 요소들은 역시 데이터양과 매개변수량이다. 그런데 현실적으로는 그 요소들을 늘리고 고도화하는 데 있어서 물리적 제한이 존재한다. 그건 바로 인프라 성격의 하드웨어다. 예를 들어 그래픽프로세서칩(GPU)만 해도 아직은 이미지 생성AI를 충분히 고도화하기에는 스펙이 크게 미흡하다. 그렇다 보니, 텍스트(언어) 기능 AI의 매개변수가 지금 3,000억 개 수준인 데 비해, 이미지 생성AI의 매개변수는 그 100분의 1인 수십억 개 정도에 불과하다. 그래서 개발자들로서는 한편으로 충분한 리소스를 가진 GPU의 발전을 기다리면서, 다른 한편으로는 현재의 하드웨어 스펙을 기반으로 최대의 성능을 끌어올리기 위한 AI 알고리즘 개발에 힘을 쏟고 있다.”

"그래픽프로세서칩(GPU) 등 하드웨어 인프라 아직 취약"
"이미지 생성AI, 자율주행, 가상현실 공간구축 등 큰 변화 이룰 것"

-이미지 생성AI의 진화가 앞으로 우리의 실생활에서 어떤 변화와 혁신을 일으킬 것으로 전망하는가.

“일단 ‘엑사원 2.0’은 챗GPT 등 다른 생성형AI들이 B2C를 지향하는 것과 달리, 전문가 활용을 전제로 한 B2B를 우선적으로 추구하고 있다. 그런 맥락에서 ‘아틀리에’의 진화는 우선 디자이너들이 이미지를 만드는 과정에서 ‘영감’을 주고, 디자이너와 ‘아틀리에’ 간 상호작용을 통해 이미지를 보정하며 궁극적으로 최고의 이미지를 구현할 수 있도록 기능할 것이다. 요컨대 인간에게 도움을 주며 공존하는 AI가 엑사원의 현실적 목표인 셈이다.

또 이미지 인식ㆍ생성AI는 향후 자동차 자율주행이라든지 가상현실 공간구축 등 생활의 변화를 이끌 분야에서도 비약적 발전의 토대가 될 것이다. 언어로만 소통하는 것보다 이미지가 융합된 소통이 AI의 훨씬 빠르고 정확한 인식과 판단, 행동을 촉진할 게 분명하니까 하는 말이다. 이런 점에서 보면 이미지 인식ㆍ생성AI가 AI 전반의 진화에 있어서 또 한번의 비약적 계기가 되리라는 건 분명하다.”


장인철 수석논설위원

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.