사진과 동영상이 안보이시면 "차단된 콘텐츠 표시"를 클릭해주세요! |
|
|
멀티모달(Multi-modal) AI
‘지능’에 ‘감각’을 더하다
DX News letter 24년 07월호
김지훈 ✦ 디지털혁신(DX)팀
2024년 07월 01일 |
|
|
🌧️ 장마와 함께 찾아온 단비같은 AI 소식을 전합니다. ☔
DX News Letter 구독자 여러분 안녕하세요?
창밖을 두드리는 빗소리가 마음을 촉촉하게 적시는 7월입니다. 😊
장마는 때론 불편함을 주기도 하지만, 메마른 대지를 적셔주는 고마운 존재이기도 하죠.
그런데 비단 우리에게만 고마운 장마가 찾아온 건 아닌거 같아요.
마치 빗물이 메마른 땅에 스며들어 새로운 생명의 싹을 틔우듯
AI 세계에서도 놀라운 변화의 물결이 일어나고 있습니다.
최근 보고, 듣고, 말하는 '멀티모달(Multi-modal)'의 모습으로 다가온 AI
이번 호에서는 사람처럼 다양한 감각을 활용하여 우리와 진정으로 소통하는
멀티모달 AI에 대해서 알아보고자 합니다. 장마철의 시원한 소나기처럼,
잠시 더위를 잊고 AI의 세계에 흠뻑 빠져보세요!
*모달리티(Modality) : '양식', '양상'이라는 뜻. 어떤 형태로 나타나는 현상이나 받아들이는 방식 |
|
|
무더위가 절정에 다다른 날씨만큼이나 글로벌 빅테크 기업들의 AI 경쟁이 뜨겁습니다.
이미지, 소리, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 '멀티모달 AI'를 앞다투어 공개하며 치열한 경쟁을 펼치고 있는데요, 먼저, Chat GPT를 만든 오픈AI가 포문을 열었습니다. |
|
|
[Introducing GPT-4o] Open AI |
|
|
오픈AI의 묵직한 선공 (feat. GPT-4o)
구글 I/O가 개막하기 하루 전날인 2024년 5월 13일.
오픈AI가 최신 GPT모델인 GPT-4o를 유튜브 라이브로 공개했습니다.
GPT-4o의 알파벳 ‘o’는 ‘모든 것’을 뜻하는 라틴어 ‘Omni’의 약자로 멀티모달의 속성을 이름에서부터 그대로 드러내고 있죠.
특히, 오픈AI는 GPT-4o의 여러 기능 중 ‘음성 모드’를 집중적으로 보여주었는데요
음성으로 질문하면 GPT-4o 역시 음성으로 대답해 주었으며 노래를 불러주거나,
사람의 감정을 이해하는 등 영화 그녀(Her)의 사만다 같은 수준 높은 AI였습니다.
구글의 날카로운 역습 (feat. 스마트글라스)
오픈AI가 하루 먼저 멀티모달 AI를 공개하면서 구글은 다소 힘이 빠져버렸지만,
한 가지는 사람들의 뜨거운 관심을 모았습니다.
'프로젝트 아스트라' 데모영상에서 스마트폰으로 AI와 대화를 하고 스마트폰 카메라로 AI에게 영상을 보여주는데서 그치지 않았어요.
그들은 안경을 썼습니다. AI와 소통하는 ‘스마트 글라스’를요.
안경의 카메라로 AI가 주변을 보고 안경의 스피커를 통해서 AI와 대화가 가능했습니다! |
|
|
[The Ray-Ban Meta Smart Glasses] Meta |
|
|
우리가 먼저인데… 메타 (feat. 레이밴 메타 글라스)
사실 '멀티모달'이라는 단어를 대중에게 널리 알린 것은 메타였어요.
’레이밴 메타 글라스’에게 "이봐, 메타, 뭐가 보이는지 보고 말해줘"라고 질문하면,
사진이 촬영되고 있음을 알리는 ‘딸깍’ 소리가 들리고 몇 초 후에 “건물입니다”라거나 “음식이에요” 와 같은 간단한 의사소통이 가능했습니다.
하지만 레이밴 메타 글라스는 동영상이 아닌 정지 이미지를 사용했고,
의사소통의 한계로 인해 그다지 인상적이지 못하다는 평이었죠.
그런데 5월22일 메타에서도 새로운 멀티모달 AI인 ‘카멜레온’을 재차 공개하며 경쟁에 불을 지피는 모양새입니다. |
|
|
🌏 AI의 진화, 거대 언어 모델(LLM)에서 거대 세상 모델(LMM)로 |
|
|
- LLM (Large Language Model, 거대 언어 모델) : 방대한 양의 데이터를 통해 얻은
지식을 기반으로 다양한 자연어 처리 작업을 수행하는 딥러닝 알고리즘
- LMM (Large Multi-modal Model, 멀티 모달 모델) : 텍스트뿐만 아니라 이미지,
오디오 등의 다양한 유형의 데이터를 처리할 수 있는 딥러닝 알고리즘 |
|
|
인류가 다른 생명체와 달리 문명을 건설하고 끊임없이 발전할 수 있었던 비결은 바로 '언어'입니다.
즉, 인류는 텍스트(Text)로 소통하고 기록하면서 지식을 축적하며 발전해왔습니다.
때문에 기존에 우리가 만들었던 AI는 우리의 언어를 이해하는 데 중점을 두었죠.
인류가 만든 가장 많은 데이터는 바로 글로 남겨진 텍스트였고,
주고받는 언어를 이해하는 것이 세상을 이해하는 방식이었습니다. |
|
|
그렇게 2022년 말, AI는 ‘언어’를 배우고 우리를 찾아옵니다.
Open AI가 거대 언어 모델을 탑재한 ‘Chat GPT 3.5’를 출시하면서 ‘생성형 AI’의 시대를 열었습니다.
그동안 아무리 AI가 발전하더라도 인간의 고유 영역일 것이라 생각했던(믿고싶었던!) ‘창작’의 영역까지 AI가 넘보기 시작했죠.
Chat GPT는 우리가 묻는 언어의 맥락을 파악하고 술술 답하는 놀라운 능력을 보여줬습니다.
이로인해 출시되자마자 전 세계 사람들이 열광했고, 단 2개월 만에 사용자가 1억 명을 돌파하는 기염을 토했습니다.
그런데 조금 아쉬운 점이 있었어요.
AI는 우리가 쓰는 언어를 찰떡같이 알아듣지만, 그 언어가 실제로는 어떤 모습인지 모른다는 거예요.
예를 들어 "남자가 말을 타고 있다"라는 문장에서 ‘말’이 어떻게 생겼는지, '타다'라는게 무슨 행위인지는 상상하지 못 하는거죠.
텍스트 데이터를 분석하고 검색은 잘하지만, 사람처럼 생각하는 건 불가능했습니다.
AI가 우리 세상을 제대로 이해하려면 텍스트뿐만 아니라 이미지와 소리, 영상까지 다양한 정보를 받아들일 수 있는 멀티모달 능력이 필요했습니다. |
|
|
그리고 2024년, 멀티모달 AI인 GPT-4o가 출시됩니다.
기존의 AI보다 훨씬 많은 정보를 학습해서 텍스트는 물론이고 그림, 소리, 영상까지 이해하고 만들어낼 수 있었습니다.
다른 회사들도 이에 질세라 다양한 멀티모달 AI를 선보이고 있는데요,
구글의 '제미나이'와 메타의 ‘카멜레온’ 또한 여러 정보를 한꺼번에 알아들을 수 있고 다양한 방식으로 소통이 가능한 멀티모달 AI입니다.
이제 AI는 언어를 이해하는 것을 넘어서 세상을 보고, 듣고, 느끼게 된 것이죠.
|
|
|
[다양한 AI Gadgets Reviewed] |
|
|
멀티모달 AI는 세상을 보아야 하기에, 우리는 조만간 AI를 ‘입게(wearable)’ 될 겁니다.
멀티모달 AI와 함께 급부상하고있는 구글의 ‘스마트 글라스’와
메타의 ‘레미밴 메타 글라스’는 모두 ‘안경’이라는 공통점이 있습니다.
어찌보면 당연한 수순으로 보이는데요, 기존의 스마트폰은 대다수의 시간을 우리들의 주머니 속 세상에 있는 반면, 안경은 언제 어디서나 우리와 시야를 공유하며 AI에게 진짜 세상을 보여줄 수 있습니다.
안경 외에도 다양한 웨어러블 AI의 시도가 일어나고 있습니다.
휴메인(Hamane)의 ‘AI Pin’은 손바닥에 메뉴를 투영하는 레이저 디스플레이를 탑재한 웨어러블 AI인데요,
아이언맨의 ‘자비스’처럼 대화로 사진을 찍도록 명령하고, 전화를 거는 등 다양한 일을 할 수 있습니다.
래빗(Rabbit)의 ‘R1’ 역시 AI 기술을 탑재한 혁신적인 웨어러블 디바이스죠.
또한, 애플의 ‘비전 프로(Vision Pro)’, 메타의 ‘퀘스트(Quest)’와 같이 AI 기술을 적용한 혼합현실(Mixed Reality, MR) 헤드셋도 있습니다.
기존의 가상현실(Virtual Reality, VR) 과 메타버스를 넘어선 새로운 시장을 창조하고 있죠.
스마트폰이 LMM의 등장으로 종말을 맞이할지, 혁신을 통해 재탄생하게 될지 앞으로가 기대됩니다. |
|
|
🏗️ 멀티모달 AI, 건설산업의 미래를 설계하다 |
|
|
우리가 몸담고 있는 건설산업에서의 멀티모달 AI는 어떤 모습으로 우리곁에 다가오고 있을까요?
멀티모달 AI는 건설산업 또한 혁신적으로 변화시켜 패러다임을 바꿀 핵심 기술로 주목받고 있습니다. |
|
|
[설계 및 계획]
- 도면 자동생성 : 이미지나 스케치를 입력하면 AI가 자동으로 도면을 생성
- BIM(Building Information Modeling) : AI를 기존의 BIM에 접목시켜 3D 모델 분석을 통한 최적의 수행 계획 수립
[시공]
- 안전관리 : 드론과 스마트 글라스에 부착된 카메라를 활용하여 AI가 안전 위험 요소를 식별
- 모니터링 : 드론 및 CCTV 비디오를 사용하여 AI가 실시간으로 현장 모니터링 및 선제적 예방
- 안전교육 : VR/AR 기술과 결합하여 건설 현장의 위험 상황을 시뮬레이션하여 안전 교육
- 자율장비 : AI 기반 자율 주행 기술을 통해 건설 장비의 안전하고 오차없는 자동 작업 수행
- 품질관리 : 드론을 활용한 구조물의 이미지, 영상 등을 AI가 분석하여 균열, 누수 등 결함발견
- 증강현실(AR) : 설계 도면을 증강 현실로 시각화하여 현장의 오시공 여부를 AI가 조기에 파악
[유지 보수]
- 민원처리 : 이미지, 음성 등 다양한 형태의 하자 민원을 AI 챗봇이 접수하고 자동으로 분류처리
- 유지보수 : AI가 다양한 데이터를 통합하여 분석하고 관리하여 유지보수 순위지정 및 자원배분
|
|
|
멀티모달 AI의 빠른 발전과 함께 이를 악용한 사례들도 등장했습니다.
GPT-4o에서 스칼렛 요한슨의 목소리가 들립니다.
GPT-4o는 여러 음성을 제공하는데요, 그중 ‘sky’라는 녀석의 목소리가 스칼렛 요한슨과 상당히 비슷합니다. AI와 대화를 나누며 사랑에 빠지는 영화 ‘Her’의 목소리를 스칼렛 요한슨이 맡았던 만큼 오픈AI 입장에서는 요한슨의 목소리를 GPT-4o에 사용하는게 상당히 의미 있는 일이라 생각했던 걸까요. (이후 스칼렛 요한슨의 이의제기로 현재 sky는 비공개 상태입니다.)
이번 일이 다른 사람들에게 끼친 피해는 없지만, 다양한 지적재산권이 침해될 수 있다는 가능성을 보여주었습니다. 의도적이지 않더라도 AI가 학습하여 생성한 얼굴이, 목소리가 실제의 나와 비슷하다면 어떻게 해야 할까요? |
|
|
더 큰 문제는 의도적인 ‘딥페이크(Deepfake)’입니다.
기존의 보이스 피싱에 걸려 큰 돈을 날린 사람들을 보며 어떤 생각을 하셨었나요? 참 어리석다고 생각하셨던 분들도 있었을 테고, 이해하지 못하는 분들도 계셨을 겁니다. 그런데 이제는 피싱에 보이스와 영상이 더해지게 될거에요. 여러분 가족의 목소리와 얼굴로 영상통화하며 송금을 유도한다면 그래도 속지 않을 자신이 있으신가요?
사회를 대상으로 한 딥페이크는 큰 사회적 혼란을 야기할 수도 있습니다.
최근 미국 대선 등 대형 선거를 앞둔 여러 국가들을 중심으로 딥페이크 영상에 대한 우려가 커지고 있죠. AI가 텍스트를 조작해도 문제지만, 영상 및 음성을 조작할 경우 차원이 다른 재앙으로 발전할 수 있습니다.
*딥페이크(Deepfake) : 딥러닝을 통해 생성한 가짜 이미지나 영상 |
|
|
멀티모달 AI는 인간처럼 보고, 듣고, 이해하는 AI를 향한 중요한 발걸음이며, 우리 삶을 더욱 편리하고 풍요롭게 만들 무한한 잠재력의 혁신입니다.
하지만 햇빛이 강할수록 그림자도 짙어지듯,
혁신적인 기술의 발전은 늘 긍정적인 면과 부정적인 면을 동시에 수반하기 마련이죠.
멀티모달 AI의 눈부신 발전이 윤리적 문제와 오용 가능성 등의 부작용에 대한 우려도 존재합니다.
이러한 우려를 극복하고 멀티모달 AI를 우리 삶의 동반자로 맞이하려면 우리는 어떤 노력을 기울여야 할까요?
멀티모달 AI의 긍정적인 면은 극대화하고 부정적인 면을 최소화 하려면 어떤 질문을 던지고 어떤 해답을 찾아야 할까요?
‘질문’이 곧 ‘해답’을 주는 AI의 시대에서 스스로에게 많은 질문을 던져봐야하는 이유입니다.
이제 곧 장마가 끝나고 무더운 한여름이 시작될 텐데요,
장마가 끝나고 맑게 개인 하늘에 떠오르는 무지개처럼 여러분의 미래도 멀티모달 AI와 함께 다채로운 변화를 만들어가시길 바랍니다!
|
|
|
|