제57회 백상예술대상 TV 작품상(교양), TV 예술상 후보에 각각 AI, VR 기술을 접목한 프로그램이 후보에 올랐다. 이는 기술의 발전에 따른 미디어 환경의 변화를 확인 할 수 있는 좋은 예이며, 작품의 신선함과 완성도를 높이는 주요한 엔진 역할이었다는 걸 증명한다. 이 흐름에 발맞춰 지난 4월 유종의 미를 거뒀던 tvN 드라마 ‘나빌레라’에서 덕출(박인환), 채록(송강)의 고난이도 발레 장면 또한 AI 기술인 ‘페이스 에디팅’이 접목되어 시너지 효과를 낸 케이스. 이 작업을 담당하며, 다양한 영역에 관련 기술을 접목하고 있는 CJ올리브네트웍스 *AI CORE, *DT 연구원들은 AI 기술 영역 확장은 이제 시작이라고 강조한다.
* AI CORE 연구소: 페이스에디팅, 스마트팩토리 등 AI, 블록체인 등 신기술을 발굴·개발하고, 관련 산업에 어떻게 적용시킬 지에 대한 업무를 담당
* AI DT 연구소: 원천기술을 MLOps를 통해 상용화하고, AI 컨설팅, 그로스해킹 등 데이터 분석을 주로 담당
tvN ‘나빌레라’ 작업이 갖는 의미는?
Q. 시간은 좀 지났지만 tvN ‘나빌레라’의 피날레 무대 장면 너무 잘 봤다. 당시 이게 AI 기술이 들어간 줄 전혀 몰랐다.
조준구: 아마 많은 시청자들이 모르고 보셨을 거다. 많은 이들의 노력으로 완성도 높은 결과물이 나왔다는 점에서 큰 의미를 두고 있다.
김예진: 당시 구성원들은 페이스 에디팅(Face Editing)을 통해 구현되었던 것을 미리 알고 봤었는데, 시청자 댓글을 보면 발레 움직임 등 자연스러운 연기에 감동했다는 댓글이 많았다. 그만큼 시청자들이 영상의 이질감을 느끼지 못했다고 볼 수 있다.
김시진: 세미나를 통해 ‘나빌레라’ 작업 과정을 볼 수 있었는데, 매주 발전되어가는 결과물을 비교하는 과정이 매우 흥미로웠다. 가족들에게 기술이 적용된 장면을 말하기 전까지, 감쪽같이 속는 모습을 보이셨다. (웃음)
Q. 나 또한 기분 좋게 속았다고나 할까. (웃음) ‘나빌레라’ 작업은 처음 어떻게 시작했나?
조준구: 작년 1월, 세계 3대 IT전시회라 불리는 CES에서 디지털 휴먼 기술이 등장하면서 큰 반향을 일으켰다. 이후 내부적으로 우리도 기술 역량을 쌓아서 구현해보자라는 의견이 모아졌고, 같은 해 4월부터 *GAN(생성적 적대 신경망) 기술을 통해 다양한 연구와 활용 방안을 모색했었다. 그 중 하나의 방법으로 CJ올리브네트웍스에서 자체 개발한 페이스 에디팅 기술을 통해 발레 레퍼런스 영상을 만들게 되었다. 이 영상을 CJ ENM R&D 담당자가 보게 되었고, 당시 드라마로 준비 중이었던 ‘나빌레라’에 이 기술을 접목하자는 협업 요청이 들어와 이 작업을 시작했다.
*GAN 기술: 제공된 데이터를 기반으로 가짜 이미지를 만들어 내는 ‘생성기’와 이미지가 생성기를 통해 만들어낸 가짜 이미지인지 판단하는 ‘판별기’가 서로 경쟁하고 학습하면서, 진짜 같은 이미지를 만들어내는 알고리즘
[음악]
할아버지 할아버지
여태까지 저랑 연습했던 것만 집중해요
그럼 할 수 있어요
할아버지 몸은 다 기억해요
어디 다 안 가고 할아버지 곁에 있다구요
[음악]
할아버지 왜 쳐다보시는 거에요?
발레를 하고싶어서..
[음악]
Q. 발레를 활용한 레퍼런스 영상이 운명이었던 건 같다. 아무래도 드라마에 이 기술이 적용되는 첫 시도라는 점에서 어려운 점이 많았을 것 같은데.
조준구: (손가락을 세며) 크게 세 가지 정도가 있다. 기존 업무는 최적의 정답을 세워놓고 그에 가까이 가기 위해 다양한 데이터를 삽입 후 학습을 시키는 것인데, 페이스 에디팅 경우, 그 정답의 기준이 모호했다. 기술진들과 드라마 제작진들이 생각하는 결과물의 기준이 달랐기 때문이다. 그 조율을 위해 끊임없이 대화와 회의를 진행했다.
회의 시 어쩔 수 없는 소통의 벽이 있었다. 우리는 방송, 영상 분야를 잘 모르고, 제작진들은 기술을 잘 몰랐기에 사용하는 초반에는 용어 사용에 신중하고, 그에 따른 설명을 지속적으로 했다. 마치 딥러닝 학습처럼 말이다.
그리고 양질의 데이터 수급에 어려움도 있었다. 이미 송강의 대역 동작은 정해졌는데, 각 움직임에 따른 최적의 얼굴 이미지를 얻기가 쉽지 않았다. 한정된 시간 안에 촬영이 진행되어야 하는 상황이라서 우리가 원하는 얼굴 데이터를 얻기 위해 촬영을 따로 할 수 없었던 상황이었다. 결국 제작진에 전달한 데이터 안에서 만들었다.
페이스 에디팅, 디에이징 기술은 미디어 제작에 플러스 요인!
Q. ’나빌레라’ 작업에 있어 가장 중요한 기술은 페이스 에디팅인데, 이 기술은 무엇이고, 어떤 과정을 통해 결과물을 얻을 수 있는지 궁금하다.
김시진: 페이스 에디팅은 기존의 GAN 기술을 얼굴에 특화한 것으로, 사람의 얼굴을 교체하는 기술을 말한다. ‘나빌레라’의 경우, 작업할 장면이 정해지면 대역이 출연한 영상과 해당 배우의 영상을 받는다. 그 두 가지 영상을 이미지로 변경한 다음, 모든 데이터를 전처리 한다. 노이즈가 많거나 학습 저하 이미지 경우 클렌징 작업을 거친다.
이 때 GAN 기술을 사용하면 좀 더 사실적이고, 깨끗한 이미지가 생성된다. 이후 이 데이터를 통해 최소 1~2일 학습을 시킨다. 학습이 완료된 후 얻은 결과물인 얼굴을 대역 영상에 합성한다. 이때 이미지로 진행되는데, 한 장씩 자른 이미지를 계속 합성하게 되고, 그 프레임을 모아서 영상으로 컨버팅한다. 이 과정을 통해 최적의 결과물을 얻어낼 수 있다.
김예진: 결과물을 얻기 까지 소요되는 기간은 작업물과 상황에 따라 다른데, 이 중 양질의 데이터 확보에 따라 달라지는 경우가 생긴다. 그 부분만 갖춰지고, 보완해 나간다면 기존 시간과 비용 투여가 많았던 특수효과 작업보다 효율성을 높일 수 있을 것으로 기대한다.
Q. 이 놀라운 기술의 결과물은 지난 Mnet ‘AI 음악 프로젝트 다시 한 번’(이하 ‘다시 한 번’)을 통해 맛본 적이 있다. 이번 ‘나빌레라’ 작업과 가장 큰 차이점은 무엇이었나?
조준구: 실무자로서 대상 얼굴의 이미지 데이터 수급 차이가 가장 컸다. ‘나빌레라’에 비해 ‘다시 한 번’ 경우, 고(故) 터틀맨(임성훈)의 영상이 한정적이었고, 그 영상 데이터로만 활용할 수 있었다. 그에 따른 구현 어려움이 있었다. 반대로 용이 했던 부분도 있었는데, ‘나빌레라’의 발레 동작 보다는 터틀맨의 안무는 역동적 움직임 적어 그에 따른 구현 난이도는 낮았다.
Q. 페이스 에디팅 외 미디어 콘텐츠 산업에 적용시킬 다양한 미디어 AI를 개발 중으로 알고 있는데 그 중 하나가 바로 ‘디에이징(de-aging, 연기자의 나이보다 훨씬 젊거나 늙은 사람에 대한 배역을 소화할 수 있도록 하는 기술)’이다. 최근 tvN STORY ‘불꽃미남’에 적용된 걸로도 알고 있는데, 작업 시 어려움은 없었나?
김예진: ‘불꽃미남’의 세 주인공인 차인표, 손지창, 신성우의 20대 모습을 ‘디에이징’ 기술로 구현했다. 그 과정은 페이스 에디팅과 동일한데, 과정 중 가장 어려웠던 부분은 ‘다시 한 번’처럼 데이터 수집 과정이 어려웠다. 세 명의 전성기 시절은 1990년대 주요 영상이 많지도 않았고, 화질도 좋지 않아 수집 시 시간이 오래 걸렸다. 세 명 중 배우 차인표 님을 담당했는데, 지금의 머리 방향과 과거의 머리 방향이 달라져 원활한 학습이 이뤄지지 않았다. 이를 위해 이미지 좌우 반전 시킨 후 재학습을 통해 해결했던 게 생각난다.
김시진: 신성우 님을 담당했는데, 가수로 활동한 과거 영상 대부분 마이크로 얼굴을 가린 영상이 많아 학습이 잘 안되었다. 그리고 제공 받은 자료도 워낙 옛날 것이라서 따로 영상을 찾으며 작업을 이어나갔다.
Q. 아무래도 미디어 콘텐츠 작업을 하다 보니 이전 업무와 다른 새로운 경험이나 학습을 했을 것 같다.
조준구: 본이 아니게 송강 배우의 덕질을 했다. (웃음) 이 작업을 위해 얼굴만 최대 5만장을 봤다. 이후실제 촬영장에 가서 송강 배우를 봤는데, 예전부터 알고 지냈던 사람처럼 익숙하더라. 나는 아는데, 그는 몰라보니 살짝 서운한 감정(?) 들 정도였다.
김시진: 한 인물을 다루다 보니 애증 섞인 애정이 들더라. 실제로 손지창, 신성우 존재를 잘 몰랐다. 특히 신성우 님은 가수가 아닌 배우로만 알고 있었을 정도였으니까. 이번 작업을 통해 그가 1990년 대를 대표하는 록커였고, 테리우스라 불리는 꽃미남 가수라는 점, 그리고 ‘내일을 향해’, ‘서시’ 등의 대표곡도 학습하게 되었다.
더 나은 AI 기술 영역 확장을 위해 필요한 것은?
Q. 이번 작업을 하면서 배웠거나 앞으로 개선해야 할 부분은 무엇인가?
조준구: 수급한 데이터의 퀄리티에 따라 작업 시간의 편차가 있다. 앞으로 이 간극을 어떻게 좁힐 수 있느냐가 관건인 것 같다. 원천 데이터가 좋지 않아도 완성도 높은 결과물을 얻을 수 있도록 발전된 기술 개발이 필요하다고 본다.
김예진: 페이스 에디팅를 맡으면서 이미지 수정 및 변경에 따른 업무들이 많았다. 원활한 업무를 위해 김시진 님과 노력했지만 부족한 점을 느꼈고, 이를 계기로 컴퓨터 비전(computer vision) 관련 스터디를 통해 공부를 하고 있다.
Q. IT 업계 경우 시시각각 변화하고 있는 산업이라는 점에서 트렌드와 기술 발전 등의 학습이 지속적으로 이뤄져야 할 것 같다. 이를 위해 노력하는 부분이 있다면.
조준구: 페이스북, 구글, 엔비디아 등에서 매주 새로운 기술이 발표되면 찾아보고, 관련 행사가 열리면 꼭 참여하려고 한다. 참여 시 새로운 기술 정보를 얻는 것도 있지만, 나와 같은 고민을 하는 이들과 온오프라인으로 만나서 대화하면서 문제를 해결하고 중요 정보를 얻는 등 많은 것을 배우고 느끼고 있다.
김시진: 매주 금요일 AI CORE, DT 연구소 모든 인원들이 함께 참여하는 세미나가 열린다. 이 때 최신 AI 기술과 이를 통해 어떤 사업으로 진행하고 있는지 서로 공유하면서 업무에 많은 도움이 되고 있다. 특히 페이스 에디팅 경우 이미지를 중점적으로 다루지만, 다양한 기술이 접목되기 때문에 관련 정보와 어떻게 적용하는지에 대한 노하우를 받을 수 있다는 점은 업무 진행에 큰 도움이 된다.
김예진: 관심 있는 AI분야에 대해 연구소 내에서 자유롭게 스터디원을 모집하여 학습 중이다. 공부한 내용을 업무에 바로 적용해보기도 하고, 서로 의견을 공유하다 보면 새로운 아이디어를 떠올리는데 도움이 된다. 좋은 아이디어가 생기면 구성원들을 모아 직접 스크럼을 구성하여 일할 수 있는 기회가 있어 관심 분야에 대해 더 열심히 찾아보고 공부하고 있다.
Q. 마지막으로 앞으로의 계획이 궁금하다.
조준구: 미디어 분야 AI는 블루오션이라고 본다. 이번 작업의 의의는 기존 수작업이 들어간 부분을 AI 기술로 대체하며 그 효율성을 높인 것에 있다. 결코 쉬운 일은 아니지만 좋은 결과물을 만들어가고 있다는 것에 의미를 두고 나름 자부심도 느끼고 있는데, 지금보다 더 나은 결과를 만들기 위해 노력할 예정이다.
김예진: 페이스 에디팅 관련 고도화를 위한 노력을 하는 게 일차 목표고, 그 다음으로 API화 해 많은 이들이 이 기술을 접목한 서비스를 사용할 수 있도록 하는 게 목표다.
김시진: 신입사원임에도 불구하고 활발하게 적용되고 있는 새 기술 적용을 믿고 맡겨 주셔서 감사하고 덕분에 좋은 경험을 많이 쌓고 있다. 새 기술에 항상 도전하고 부딪혀볼 수 있도록 해주시는 연구소의 자유분방한 환경 덕분에, 앞으로도 미디어 영역에서 딥러닝 기술을 접목한 다양한 시도를 하면서 성장할 수 있을 거라 기대하고 있다.
이제 AI 기술은 우리의 삶과 동떨어진 이야기가 아니다. 다양한 영역에서 AI 기술은 적용되고 있고, 그에 따라 우리는 편의성과 재미, 그리고 감동까지 얻는 상황이다. AI 기술 최전선에서 실무를 맡고 있는 이들은 자신들이 만들고 구현한 기술의 가능성을 눈으로 확인했고, 이를 더 넓은 영역으로 확장 준비중이다. AI 기술을 통한 더 나은 생활을 경험했다면 한 번 찾아봐라. 아마 이들의 노력이 담겨 있을 것이다.