사진에서 물체를 인식하는 인공지능 기술은 인간 수준을 뛰어넘은 성능을 보여주는 반면, 유튜브 동영상과 같은 비정제 비디오에서의 상황 이해 기술은 이에 비해 매우 낮은 성능을 나타낸다. 기존 동영상 기반 감정 인식 기술은 대용량 비디오 데이터베이스 부족으로 비정제 동영상에 적용하기 어렵기 때문이다.
이러한 가운데 최근 연세대학교 손광훈 교수 연구팀이 약지도학습 방식의 비디오 자동 레이블링 기술을 개발해 대용량 고품질 데이터를 확보해야 하는 부담을 획기적으로 줄였다. 또한 행동 및 장소와 같은 주변 환경에 대한 정보를 복합적으로 인식하고, 융합하는 딥러닝 네트워크로 설계해 비디오 기반의 감정 인식 성능을 향상했다.
그 결과 연구팀은 8편의 최우수 SCI 논문을 출판하고, 1건의 특허를 출원해 인공지능 분야의 원천기술을 확보하는 한편, 지난해 10월에는 국가연구개발 우수성과 100선에 선정되었으며, 12월에는 과학기술정보통신부 장관상을 수상함으로써 국내 과학기술의 새로운 전기를 열었다는 평가를 받았다.
세계 최고 수준의 비정제 비디오 데이터베이스 구축
최근 YouTube, Dailymotion 등 웹상에서는 동영상 플랫폼이 인기를 끌고 있다. 전 세계적으로 동영상 열풍이 가속화되고 있어, IT 업계에서는 동영상의 종합적인 비디오 이해 기술이 큰 화두이다.
특히 감성 컴퓨팅* 분야에서 주목을 받고 있는 동영상 기반 감정을 인식하는 기술은 딥러닝 학습을 위한 대용량 비디오 데이터베이스 부족으로 얼굴이 가려지거나 다양한 조명 및 장소 변화가 발생하는 비정제 동영상에서 적용하기 취약해 실제 적용하는 데 한계가 존재했다. 따라서 얼굴, 장소, 행동에 대한 상황 이해와 더불어 비정제 비디오를 기반으로 감정을 인식하는 기술 개발이 매우 중요해지고 있다.
감성 컴퓨팅(Affective Computing)*: 인간의 감성을 인지, 해석, 처리 할 수 있는 시스템과 관련된 인공지능을 연구하고 개발하는 분야.
이에 손광훈 교수 연구팀은 비정제 비디오에서 인간 수준으로 비디오 속 의미론적 상황을 이해하는 인공지능 개발에 나섰다.
“비정제 비디오 데이터를 이용해 인간 수준의 성능을 보이는 인공지능을 학습하기 위해서는 필수적으로 대용량 고품질 학습 데이터를 확보해야 하죠. 하지만 사진을 라벨링 하는것보다 비디오의 모든 프레임에 정답을 라벨링 하는 것은 시간과 노력이 훨씬 많이 필요하게 됩니다. 따라서 비교적 적은 라벨링 시간과 노력으로도 할 수 있는 약정답*을 만들어 학습하는 약지도학습* 방식을 사용해 비디오 자동 레이블링 기술을 개발하게 되었습니다. 또한 구축한 비디오 데이터베이스를 활용해 비정제 동영상에서 복합적인 상황을 이해하고 인간처럼 추론, 예측하는 원천기술을 개발했습니다.”
약정답(Weak-supervision)*: 학습 데이터에 상응하는 불완전한 정답을 의미하며, 예를 들어 물체 검출에서 사물의 정확한 위치와 종류에 대한 정답 없이 사물의 종류(약정답)만 알려진 이미지 분류 데이터세트를 활용하여 사물의 정확한 위치를 예측.
약지도학습(Weakly-supervised learning)*: 정답세트를 구축하는 과정에 소요되는 시간과 비용을 감소시키기 위해 데이터에 상응하는 명시적인 정답 없이 약정답을 사용하여 딥러닝을 학습 시키는 기술.
연구팀은 유튜브에서 모은 비정제 동영상에 자동 레이블링 기술을 통해 정답을 만들고 인공지능 네트워크를 학습시켰다. 네트워크는 2가지 방향으로 학습이 되는데, 얼굴을 이용해 사람의 감정을 인식하는 네트워크와 감정 인식에 도움이 되는 주변 부분을 학습하는 네트워크로 구성된다. 각각의 네트워크는 융합 중요도를 결정하는 네트워크를 통해 복합적으로 융합되어 최종적으로 비디오의 상황을 이해하고 감정을 인식하도록 학습을 진행했다.
이러한 여러 가지 실험을 통해 구축한 데이터베이스의 양적, 질적 평가와 함께 인공지능 시스템의 성능을 평가했다. 그 결과 연구팀이 구축한 데이터베이스는 기존에 있던 다른 동영상 데이터베이스와 비교해 10배 이상의 데이터를 가지고 있는 것으로 나타났다. 질적 평가에서도 기존의 다른 동영상 데이터베이스(SF, 스릴러 영화 등)에는 없는 조금 더 리얼한 상황에 가까운 비디오들을 더 많이 가지고 있다는 사실을 증명할 수 있었다.
아울러 연구팀이 제안하는 인공지능 시스템 또한 복합적인 상황 인식을 통해 기존 감정 인식 성능을 5% 가까이 향상시켰다. 무엇보다 기존의 딥러닝 기술로 추론하기 어려운 비정제 동영상의 한계를 극복해 감정, 행동, 장소 등 비정제 비디오의 종합적 이해를 위한 요소들의 예측을 가능하게 했다는 점에서 의미가 크다고 할 수 있다.
“기존의 방법들은 비디오에 나오는 사람의 감정을 인식하기 위해 얼굴 부분만을 찾아내 감정 인식 알고리즘에 활용해 왔습니다. 하지만 사람의 감정은 주변 환경과의 다양한 문맥 정보를 통해 결정되고 다양한 행동과 함께 표현되죠. 이에 연구팀에서는 이러한 주변 환경에 대한 정보를 함께 인식해 인간처럼 복합적인 사고를 통해 비정제 동영상에서 감정 인식을 할 수 있도록 만들었습니다.”
2019 국가연구개발 우수성과 100선에 선정
이번 연구에서 개발한 데이터베이스 및 복합적 감정 인식 기술은 최우수 SCI 저널 ‘IEEE TPAMI’에 승인되어 그 우수성과 창의성을 인정받았다. 이러한 기술을 적용해 실제 환경에서 취득된 비정제 비디오들로 구성되는 세계 최고 수준의 대용량 데이터베이스를 구축했으며 이를 기반으로 세계 최고 수준의 학술대회인 ‘ACM Multimedia 2018’에서 ‘CoVieW: The 1st Workshop and Challenge on Comprehensive Video Understanding in the Wild’ 라는 비정제 비디오 기반의 복합 상황 인지 워크숍 및 챌린지를 유치했다.
또한, 개발된 동영상 기반 감정 인식 기술은 딥러닝 네트워크로 설계되어 기존 기술들과의 차이점을 인정받아 최우수 신호처리 학술대회인 ‘IEEE ICASSP’에서 발표되었다.
이러한 데이터베이스 및 복합적 감정 인식 기술은 딥러닝을 활용한 차세대 머신 러닝 산업/학문의 성능 개선 및 다양한 애플리케이션(비디오 종합적 이해, 활동 인지)에 활용 가능하며 8편의 SCI 논문 출판과 1건의 특허 출원을 통해 원천기술을 확보하게 되었다.
이번 연구성과는 과학 기술적, 경제 사회적인 파급효과가 클 것으로 기대된다. 먼저, 기존에 구축되었던 행동, 환경, 감정 인식을 위한 각각의 데이터베이스가 아닌 모두를 포함하고 있는 통합 데이터베이스를 구축해 인간 수준의 종합적 비디오 이해를 위한 연구가 가능한 만큼 세계적 통용 벤치마크로 활용될 수 있다. 연구팀에서 구축한 데이터베이스는 웹사이트를 통해 공개된 지 3개월 만에 전 세계에서 700번 이상의 방문자 수를 기록하며 높은 관심을 받았고, 2019년 10월 기준 20개국에서 4,500명 이상의 연구자들이 방문했다.
아울러 비정제 비디오 영상을 이용한 컴퓨터 비전 인공지능 기술 개발의 초석을 마련한 것으로, 향후 동영상 관련 인공지능 연구에 크게 활용될 것으로 예상된다. 또한 차세대 비디오 해석의 핵심기술로서, 유튜브와 같은 대용량 동영상 콘텐츠 산업은 물론 사람과 기계의 소통을 중요시하는 감성 컴퓨팅 성장의 밑거름이 될 것으로 기대되고 있다.
이처럼 과학기술 개발 효과 및 경제 사회적 파급효과 등 질적 우수성을 인정받아 지난 2019년 10월에는 과학기술정보통신부와 한국과학기술기획평가원이 발표한 ‘2019 국가연구개발 우수성과 100선’에 선정되었고, 12월에는 과학기술정보통신부 장관상을 수상했다.
연구팀은 딥러닝 기반 의미론적 상황 이해 원천기술 과제를 2017년 9월부터 2020년 12월까지 총 2단계에 걸쳐 진행하고 있으며, 현재 1단계로 상황 이해에 대한 기초 연구가 완료된 상태이다. 이를 바탕으로 2단계 상황 추론 및 예측 연구를 수행 중이다.
대한민국 과학기술의 미래를 개척하다.
이번 연구 외에도 손광훈 교수는 다양한 분야에서 의미 있는 족적을 남기며 대한민국 과학기술의 미래를 만들어가고 있다. 그중 하나가 정보통신기획평가원 창조 씨앗형 R&D 디지털 콘텐츠 원천기술 사업으로 진행 중인 ‘스마트카 다중 센서와 딥러닝을 이용한 초정밀 내츄럴 3D 뷰 생성 기술 개발’이다.
이 연구의 목표는 스마트 카에서 취득한 센서 데이터를 활용해 초정밀 3차원 지도를 생성하고, 이를 통해 AR 또는 VR 콘텐츠를 개발해 응용 콘텐츠를 사용자에게 제공하는 데에 있다.
“기존 방식은 360° 깊이로 정보를 획득할 수 있는 라이다 센서를 활용해 3D 지도를 개발했는데, 이는 매우 정확하지만, Sparse 하므로 초정밀 지도를 만들기에는 한계가 존재합니다. 이를 극복하기 위해 연세대학교 연구팀은 현재 라이다 센서와 함께 4방향에 대해 스테레오 카메라 및 GPS 센서를 장착한 차량을 제작했고, 이를 이용해 연세대학교 및 서울 주변에 대한 데이터를 획득하고 있습니다. 또한 3D 지도를 만들기 위한 원천기술 개발을 진행 중입니다.”
2016년 4월부터 과제를 수행하면서 라이다와 스테레오 카메라에서 추정한 깊이 정보를 융합해 초정밀 깊이 정보를 획득하는 기술을 개발했고, 이 기술은 최우수 국제 저널 및 국내 특허로 등록되어 기술의 우수성을 인정받았다.
또한 3D 지도 기술은 AR/VR 기술에도 매우 중요한 기술이다. 정확한 3D 정보를 바탕으로 콘텐츠의 품질을 향상할 수 있으며 자율주행, 트래픽 모니터링 등 수많은 콘텐츠에 활용될 수 있다. 과제 수행 기간인 2021년 12월까지 이미 개발한 기술을 바탕으로 다양한 AR/VR 애플리케이션을 개발할 예정이다.
이 밖에도 AI(Artificial Intelligence)를 활용한 실종자(실종아동 및 치매 노인) 초동수사를 위한 과제로 연구실에서 진행 중인 ‘실종아동 등 신원 확인을 위한 복합인지 기술 개발사업’도 주목된다.
‘이종 CCTV 영상에서의 딥러닝 기반 실종자 초동 신원 확인 및 추적 시스템’이라는 명칭으로 수행 중인 해당 과제의 최종 목표는 신속하고 고도화된 실종자 초동 수사를 위한 단일 또는 이종 센서 CCTV 영상에서의 AI-inspired 실종자 신원 확인, 보행자/차량 검출, 추적, 재식별 핵심기술 개발이다.
2018년 10월부터 연구를 수행한 결과 검출, 추적, 재식별 각각에 대한 알고리즘을 개발했고, 현재는 세 가지 알고리즘을 동시에 해결할 수 있는 통합시스템을 구축하고 있다.
과제의 최종 결과물인 단일 또는 이종 CCTV 영상에서의 딥러닝 기반 실종자 초동 신원 확인 및 추적 기술, 그리고 민감 개인정보보호 기술은 향후 CCTV 기반 자율 경비 시스템, 재난 관리 시스템, 군 시설 감시 시스템, 산업 현장 모니터링, 자율 주행 자동차, 비즈니스 인텔리전스, 스포츠 분야, 모바일 개인 인증, 사물 인터넷 등 여러 분야에서 핵심 요소 기술로 활용될 전망이다.
한계란 넘어서기 위한 것, 포기란 없다.
손광훈 교수는 그동안 괄목할 만한 연구성과들을 내놓으며 디지털 영상미디어, 컴퓨터 비전 분야에서 한국을 대표하는 석학으로 자리매김했다. 하지만 지금의 성과를 얻기까지 그 과정이 그리 녹록한 것만은 아니었다. 성공이라는 큰 산을 오르고 달리기 이전의 막막함, 그리고 숱한 실패와 포기의 기로에서 스스로를 다졌던 경험들이 있었기에 가능한 일이었다.
수많은 실패 속에서도 부단히 자기 자신을 채찍질한 자만이 성공의 기쁨을 누릴 수 있다는 것을 누구보다 잘 알고 있는 손광훈 교수는 연구원들과 후학들에게 포기하지 않고 목표를 향해 끝까지 정진할 것을 당부하고 있다.
“아무리 세계적인 등반가라 해도 한 번에 열 발자국, 스무 발자국 이상을 걸어 올라갈 수는 없습니다. 숨이 차도 포기하지 않고 한 걸음씩 올라야지만 정상에 다다를 수 있는 법이죠. 연구도 마찬가지입니다. 오르기 전의 막막함을 이겨내듯 연구 성공에 대한 부담감을 극복하고, 중도에 포기하지 않아야 원하는 연구 결과를 얻을 수 있습니다.”
또 한 가지, 손광훈 교수가 평소 연구원들에게 강조하는 점은 글로벌 경쟁력을 갖춰야 한다는 것이다. 우리의 경쟁상대가 주변 사람들이 아니라 선진국, 즉 세계라는 것을 명심하고, 항상 연구의 질을 높여 세계적으로 경쟁력을 갖추는 데에 무게중심을 두어야 한다고 강조하고 있다.
연구원들의 글로벌 역량 강화를 위해 매주 월요일 오전 진행하는 ‘김밥 미팅’과 매주 1회 진행하는 연구 미팅은 영어만 사용하도록 하고, 해외 경험을 가질 기회를 최대한 지원하는 등 다각적인 노력을 기울이고 있다. 또한 해외 대학들과의 공동연구를 추진해 세계적으로 인정받을 수 있는 연구성과를 창출하는 데에도 적극적으로 나서고 있다.
이러한 노력에 힘입어 지난 1년 동안 연구실 졸업생 제자 4명이 영국의 Queen Mary University of London(QMUL) 대학 전자공학과, 영국의 Southampton 대학 전자공학과, 고려대 컴퓨터과학과, 한양대 전자공학과 등 국내외 유수 대학에 조교수로 임용되었다. 또한 현재 재학 중인 연구원 3명이 미국의 Microsoft 사와 Amazon 사의 연구팀으로부터 인턴 연구원으로 초청을 받아 오는 5월부터 인턴 근무를 시작하는 등 연구실이 국제적인 경쟁력을 갖추고 있음을 확인시켰다.
연구자, 교육자로서 바쁘게 달려온 손광훈 교수는 이제 젊은 세대들이 꿈을 키우고 희망의 싹을 틔울 수 있도록 창업을 지원해 주고 싶다는 바람을 전했다. 반짝이는 아이디어들이 넘쳐나고 아이디어를 현실에서 만날 수 있는 사회를 만들기 위해, 젊은 과학자들에게 희망을 보여주는 획기적인 아이템이 있다면 펀딩, 자문 등 여러 측면에서 창업을 지원할 계획이다.
모두가 어려울 것이라는 문제들을 특유의 끈기와 열린 사고로 해결하며, 도전의 삶을 이어온 손광훈 교수. 그 도전의 이면에는 언제나 과학에 대한 애정과 사람을 향한 진심이 살아 숨 쉬고 있기에 우리는 그의 연구가 표면적 성공이 아닌, 진정한 성공이라고 말할 수 있을 것이다.
지금 이 순간에도 연구실 불을 환히 밝히고 있는 손광훈 교수를 통해 대한민국의 과학기술이 한 층 더 환한 ‘봄날’을 맞을 수 있기를 기대해본다.
<이 기사는 사이언스21 매거진 2020년 2월호에 게재 되었습니다.>