데이터 사이언스 in 광고 마케팅 2편 : 머신러닝과 인공지능 HSAD 공식 블로그 HSADzine

HSAD 공식 블로그 HSADzine


HS애드 블로그는 지난 회에 이어 두 번째로 오클라호마 대학교 윤도일 교수의 칼럼을 게재합니다. 많은 화두를 던져 주었던 지난 1편 칼럼에 이어 이번에 게재되는 윤도일 교수의 칼럼 2편은 머신러닝과 인공지능에 대한 설명 및 광고 마케팅 분야에서의 활용 현황을 소개합니다. 마지막 3편은 데이터 사이언스가 가져올 변화에 대한 예측과 광고 마케팅 분야에서의 전략 변화를 소개할 예정입니다. 진화하는 데이터 테크놀로지를 바탕으로 보다 효과적인 기획과 성공적인 집행을 원하는 모든 광고인을 위한 윤도일 교수의 칼럼, 지금부터 시작합니다.


인공지능을 구현하기 위한 기본적인 개념, 머신러닝

박사논문 디펜스를 마친 지도학생이 논문 수정본을 대학원에 제출해도 괜찮겠냐는 이메일을 보내왔습니다. 그런데 이메일의 마지막 줄에 ‘추천 답변에 대한 의견(Feedback about suggested replies)’이라는 메시지와 함께 “Yes, it is fine,” “Yes, you can do it,” 그리고 “Yes, of course you can.”이라는 간단한 문장들이 옵션으로 제공되어 있더군요. 맨 마지막 문장을 클릭했더니 자동으로 그 학생에게 발송될 이메일이 해당 문장으로 작성이 되었습니다. 이메일 시스템이 수신된 이메일의 내용을 확인하고 적절한 응답문을 작성해 제공하는 편리한 시대가 도래한 것이지요.

광고 마케팅 분야에서 최근 많은 관심을 받고 있는 주제는 아무래도 머신러닝과 인공지능이 아닌가 싶습니다. 인공지능을 구현하기 위한 가장 기본적인 개념이 머신러닝입니다. 기계가 ‘스스로’ 학습하게 만들어서 예측이 가능한 수준까지 도달하는 것이 인공지능의 개념입니다. 기존의 컴퓨터 프로그래밍은 사람이 프로그램 언어를 사용하여 프로그래밍을 하고, 컴퓨터는 주어진 데이터를 개발된 프로그램으로 처리하여 결과를 제공해왔습니다. 머신러닝과 인공지능의 개념은 프로그래머의 코딩을 통해 결과를 컴퓨터가 만들어 내는 것이 아니라 컴퓨터 스스로 인지해서 결과를 만들어 내는 것입니다.


▲구글 어시스턴트가 사람처럼 주문 전화를 거는 모습은 인공지능의 발달을 극명하게 보여주는 예다 (출처 : 매시블 데일리 유튜브 채널)

우리가 쉽게 접할 수 있는 인공지능은 음성인식(Speech Recognition)기술과 자연어 처리(Natural Language Understanding)기술이 적용된 구글 어시스턴트(Google Assistant), 마이크로소프트 코타나(MS Cortana), 아마존 알렉사(Amazon Alexa), 애플 시리(Apple Siri)와 같은 인공지능 비서 어플리케이션들입니다. 2018년 5월 구글 어시스턴트는 사람이 하는 것처럼 로컬 리테일 숍에 전화를 걸어서 예약을 할 수 있는 기능을 발표했습니다. 사람이 직접 통화를 하지 않고 구글 어시스턴트가 전화를 해서 실제로 스타벅스, 던킨 도넛, 파네라 브레드와 같은 브랜드에 전화주문을 할 수 있는 시스템을 구축하였습니다. 구글 어시스턴트는 사람이 전화를 걸어 예약을 하는 것과 동일한 과정을 수행하였는데요. 주어진 상황이 복잡해도 상황에 맞게 대처를 하는 모습이 인상적입니다.


스스로 배우고 진화하며 성장하는 컴퓨터

현대 인공지능의 개척자라고 불리는 컴퓨터 과학자 아서 사무엘(Arthur Samuel)은 1959년 머신러닝을 ‘단순히 사람들이 만들어 낸 프로그램에 의해서가 아니라 컴퓨터가 스스로 배울 수 있는 능력을 연구하는 분야’라고 정의했습니다. 카네기 멜론 대학의 탐 미첼(Tom Mitchell) 교수는 1997년에 발간된 그의 책 ‘머신러닝(Machine Learning)’에서 ‘경험을 통해 자동적으로 발전하는 컴퓨터 알고리즘에 관한 연구’라고 머신러닝을 정의했습니다. 미첼 교수는 컴퓨터 프로그램의 세 가지 요소로 ▲데이터 요소로서의 경험(Experience) ▲수행해야 하는 과업(Task) ▲측정요소로서의 성과(Performance)를 들고 있습니다. 즉, 달성해야 하는 목적을 정해 놓고 주어진 데이터를 분석하는 가운데 단계별로 성과를 측정해 나가면서 목적달성을 위해 컴퓨터가 학습을 하는 과정이 머신러닝이라는 것입니다.

보통의 데이터는 숫자의 형태로 보관되는 양적 데이터이므로 분석은 통계기법에 의존하고 있습니다. 빅데이터 역시 거대한 용량의 컴퓨터를 사용해서 분석을 해야 하므로 숫자의 형태로 저장ᆞ분석합니다. 통계의 기본 두가지 분석방법은 기술통계추리통계입니다. 기술통계(Descriptive Statistics)는 전체를 대표하는 한 집단에서 수집된 데이터를 이해하기 쉬운 방법으로 데이터를 간소화하는 기법입니다. 전체 데이터의 평균값을 구한다든지, 최소값과 최대값을 구해서 데이터의 분포를 살펴본다든지 하는 방법입니다. 추리통계(Inferential Statistics)는 기술통계를 통해 간소화된 집단에서 수집된 데이터의 값들을 분석하여 전체집단을 예측하고 추정해 보는 기법입니다. 보통의 경우 가설을 수립하고 가설을 검증하는 수단으로 추리통계를 사용합니다.


▲페이페이 리 교수의 테드 강연 (출처 : 테드 공식 유튜브 채널)

스탠포드 대학 교수이자 구글 클라우드 부사장인 페이페이 리(Fei Fei Li)는 200만 명 이상이 시청한 2015년 테드 토크(Ted Talk)에서 컴퓨터가 어떻게 이미지를 습득을 배워서 주어진 이미지를 인식하고 판별해 내는지를 설명하고 있습니다.

수 년간 수집된 방대한 개와 고양이 이미지 데이터를 컴퓨터에게 학습을 시킨 후, 쌓인 데이터를 바탕으로 컴퓨터는 다양한 표정의 개와 고양이를 인식, 분류할 수 있게 되었습니다. 머신러닝이 수행하는 분류, 예측, 군집의 일 중에 분류(Classification)가 바로 이러한 과업입니다. 이 프로젝트에서 학습에 주어진 과제(Task)는 개와 고양이 이미지 인식입니다. 제공되는 방대한 데이터(Experience)를 분석하고 학습해서 컴퓨터가 개와 고양이 이미지를 옳게 인식하는지 아닌지 측정하는 것이 성과(Performance)의 측정입니다. 성과 측정의 단계에서 잘못된 부분은 수정해서 학습을 하여 컴퓨터 스스로 개와 고양이의 이미지에 대한 정보를 습득하게 되는 것입니다.

페이페이 교수의 연구처럼 컴퓨터에게 주어진 개와 고양이의 이미지가 정확한 정보를 가지고 있는 데이터라면 컴퓨터는 인간의 지도를 받는 지도학습(Supervised Learning)을 하게 되는 것이고, 개인지 고양이인지 구분하는 정보 없이 다량의 이미지만 제공된 데이터라면 컴퓨터는 인간의 지도가 없는 비지도학습(Unsupervised Learning)을 하게 됩니다. 지도학습의 경우에는 주어지는 정확한 정보를 바탕으로 맞음과 틀림이 명확하기 때문에 보다 정확한 결과를 예측할 수 있는 반면, 비지도학습의 경우에는 컴퓨터가 스스로 유사한 특징이 있는 이미지끼리 군집화하는 과정을 거치기 때문에 지도학습보다 복잡한 과정을 거치게 됩니다.


데이터의 정확성과 머신러닝이 가진 한계

머신러닝의 기본은 데이터를 통한 예측이며, 데이터를 처리하는 통계기법에 의존하여 만들어지는 컴퓨터 알고리즘입니다. 머신러닝에는 기본적으로 여러 개의 변인이 사용되는 고급수학과 고급통계가 사용됩니다. 쉽게 접근을 하자면 가장 보편적으로 사용되는 예측의 요소를 분석하는 회귀분석(Regression)과 데이터를 축소하여 요인을 추출하는 요인분석(Factor Analysis - PCA)이 기본 바탕입니다. 데이터의 양이 많아지면 데이터가 다양한 특성을 가지게 되어 학습능력이 떨어지는 현상이 벌어지기 때문에 그 특성을 서로 관련 있는 것끼리 분류를 하고 요인을 만들어내는 요인분석을 통해 머신러닝이 효과적으로 진행되도록 합니다. 추출된 각각 요인들이 결과에 미치는 영향의 정도를 계산해내어 일종의 함수를 만들어 내는 회귀분석의 기본개념을 통해 예측의 정확도를 높일 수 있습니다.

여기서 고려해야 할 두 가지 중요한 점은 데이터의 정확성과 머신러닝이 가진 한계입니다. 통계는 데이터가 기본입니다. 양질의 데이터가 제공될 때 예측가능성이 높은 결과를 도출하게 됩니다. 컴퓨터 프로그래밍을 처음 배울 때 듣게 되는 말이 ‘GIGO(Garbage In Garbage Out)’입니다. 투입되는 데이터가 좋아야 좋은 결과가 나온다는 말입니다. 머신러닝에서도 양질의 좋은 데이터가 기본입니다. 머신러닝의 세 가지 요소를 말한 탐 미첼 교수의 ‘경험(E)’은 데이터를 말합니다. 머신러닝/인공지능은 컴퓨터로 인간이 수행하는 지적 능력을 수행하고자 하는 것이 목표입니다. 인간이 삶을 살아가는 과정 자체가 경험이고 그 체득된 경험을 바탕으로 미래의 불확실한 일에 대한 판단을 합니다. 이와 마찬가지로 컴퓨터 역시 제공되는 데이터로 학습을 하고 판단을 하는 것입니다.


▲비틀즈를 학습한 인공지능은 비틀즈 풍의 음악을 작곡했다 (출처 : 소니 CSL 공식 유튜브 채널)

2016년 소니는 인공지능이 작곡한 노래를 발표했습니다. 총 2곡의 노래를 발표했는데 그 중 ‘Daddy’s Car’란 제목의 노래는 어디서 많이 들어본 것 같은 느낌이었습니다. 마치 1960년대 비틀즈의 음악을 듣는 느낌이었습니다. 그 노래를 작곡한 인공지능에게 제공된 데이터는 주로 비틀즈의 음악들이었는데요. 인공지능이 학습한 음악이 비틀즈의 음악이었기 때문에 창작의 결과로 나온 노래 역시 비틀즈 풍의 음악일 수밖에 없었던 것입니다. 인공지능이 보다 다양한 장르의 음악을 학습했다면 비틀즈 풍의 곡이 나오지 않았을 것입니다.


2018년 러시아 월드컵이 한창일때 나왔던 흥미로운 기사가 있습니다. 기존의 통계기법에 의해 우승국을 예측했을 때는 브라질의 우승이 예측이 되었지만, 머신러닝과 기존통계기법을 사용한 Random-forest기법을 사용했을 때는 독일의 우승이 예측되었다고 합니다(MIT Technology Review, June 12, 2018). 그러나 실제 경기 결과에 따르면 독일은 월드컵 역사상 최초로 16강 진출에 실패했고 브라질은 4강 진출에 실패했습니다.

인공지능이 우승 예측에 실패한 원인은 무엇일까요? 첫 번째는 앞에서 언급했던 것처럼 데이터에서 문제를 찾을 수 있습니다. 우승 예측을 했던 인공지능은 지난 4개 대회의 결과를 분석한 16개 항목의 데이터를 사용했습니다. 월드컵 경기와 관련된 퍼포먼스 데이터만 분석해서 나온 결과입니다. 하지만 경기 당일의 날씨나 응원 현황, 심판관련 정보, 출전국의 정치적 상황, 선수 개인의 정보 등 경기의 성패와 간접적으로 관련된 더 많은 데이터가 사용되었다면 더 정확한 예측을 할 수 있었을 지도 모릅니다.

두 번째는 머신러닝이 가진 한계가 아닌가 싶습니다. 축구는 22명의 선수가 90분간 그라운드에서 볼을 가지고 하는 스포츠입니다. 사람과 사람의 상호작용에 의한 경기이기 때문에 선수 개인의 심리적 상태는 물론 한 팀 선수들 간의 교감, 상대 팀 선수와의 사회적, 상황적 관계가 고려되야 합니다. 축구 성적과 관련한 20여 개 남짓한 데이터로서는 설명할 수 없는 복잡한 요인들과 돌발상황들이 존재하고 있습니다.


머신러닝과 인공지능을 통해 확장되는 광고의 영역

머신러닝과 인공지능이 광고에는 어떻게 적용이 되고 있을까요?


2018년 2월 2일자 ‘포브스(Forbes)’지의 기사에 따르면 머신러닝이 광고에 준 여러 영향 중에 세 가지를 제시하고 있습니다. 첫 번째는 머신러닝이 사용하는 기본 분석방법인 예측분석입니다. 개인의 과거의 행동을 분석해서 미래의 행동을 예측하는 기법으로 이미 많이 사용되고 있습니다. 쉬운 예로 아마존은 고객의 구입목록을 보관하고 분석하여, 고객이 재접속시에 접속자의 신원을 파악하고 ‘Hello!’라는 인사와 함께 접속자가 과거에 구입한 제품의 목록를 바탕으로 관련 있는 제품들을 제안하고 있습니다. 이 방법은 넷플릭스에서도 사용하는 기법입니다. 고객의 과거 영화감상의 정보를 분석하여 만들어진 알고리즘을 통해 고객의 취향에 맞는 새로운 영화를 추천함으로써 고객만족을 극대화시키고 있는 것입니다.

두 번째는 광고주 브랜드의 타겟팅을 효과적이고 효율적으로 해준다는 점입니다. 데이터 애널리틱스에서 제공하는 고객의 정보와 온라인 서치, 네비게이션, 구매행동을 바탕으로 보다 정확한 타겟을 특정하여 개발된 알고리즘을 통해 광고를 노출시켜서 불필요하게 낭비되는 광고예산을 줄일 수 있는 장점이 있습니다. 대표적인 예로 미디어 구매가 수요(DSP: Demand Side Platform)와 공급(SSP: Supply Side Platform)간의 매칭을 리얼타임 비딩 프로토콜(RTB: Real Time Bidding)로 자동화한 프로그래매틱 광고를 들 수 있겠습니다. 온라인 광고의 최종목표인 구매전환율(Conversion Rate)을 높이고 광고구매 단가(CPA: Cost per action)를 낮추기 위해 정확한 타겟을 선정하고 효과적이고 효율적인 미디어 구매를 돕는 알고리즘의 개발로 미디어 구매의 자동화를 이루고 있습니다.

마지막으로 가격변동 기법입니다. 이 기법은 상황에 따라 가격변동 정책을 수행하여 이익을 극대화하는 마케팅의 전통적인 기법중의 하나입니다. 미국의 스포츠 경기의 입장권을 주로 판매하는 티켓마스터닷컴은 2011년부터 전 경기의 결과에 따라서 인기팀과 비인기팀 경기의 입장권 가격을 온라인 상에서 자동으로 조절해왔습니다. 이 기법 역시 수요와 공급의 원칙에 따라 인기팀의 티켓의 수요가 올라가면 가격을 상승시키고 비인기팀의 수요가 떨어지면 가격을 하락해서 구매를 유도하는 알고리즘의 개발로 가능해졌습니다.

이 외에도 머신러닝이 광고분야 적용되어진 가장 대표적인 부분이 리타겟팅 부분입니다. 리타겟팅은 온라인 리테일 숍을 방문하여 서치를 한 후 제품을 구매하지 않은 소비자가 다시 온라인에 접속했을 때 지난 방문의 온라인 행동을 바탕으로 적절한 광고를 제시하는 기법입니다. 소비자의 행동을 추적하고 과거 매체사용패턴과 제품 구매패턴을 분석, 특히 소비자가 관심을 가졌던 제품을 방문 사이트에 다시 노출시킴으로써 구매전환의 기회를 높이고 있습니다. 최근에 발표되는 연구논문에서는 ‘온라인 행동광고(OBA: Online Behavioral Advertising)’란 이름으로도 불리고 있습니다.


소비자와 관련된 인공지능의 적용을 종합해보면, 머신러닝과 인공지능은 디지털 시대의 광고에서 목표로 하고 있는 개인화(Personalization)와 정보의 적절성(Relevance)을 더욱 편리하게 가능하도록 만들었습니다. 미디어의 디지털화가 가속되면서 광고 마케팅에서 소비자와 브랜드 사이 파워의 헤게모니가 뒤바뀌었습니다. 수동적이었던 소비자는 미디어와의 상호작용 (Interaction)을 통해서 적극적인 소비자로 바뀌었고 제품의 선택과 구매에도 합리성을 갖추게 되었습니다. 머신러닝과 인공지능은 데이터 분석을 통해 변화된 소비자들의 기호와 필요에 맞는 정보를 적절한 시점에 제공하고 있고, 관련성이 높은 정보들을 쉽고 편리하게 찾을 수 있도록 서치 프로세스에도 기여하고 있습니다.


광고회사로 향한 머신러닝과 인공지능

머신러닝과 인공지능은 소비자와 관련된 분야뿐만 아니라 광고회사의 업무에도 활용이 되고 있습니다. 2017년 퍼블리시스 그룹은 자사의 마케팅과 광고제 참가를 중단하고 그 비용으로 마이크로 소프트와 인공지능 플랫폼을 개발하겠다고 선언했고, 2018년 5월 그 모습을 선보였습니다.


▲퍼블리시스 그룹 인공지능 플랫폼 ‘마르셀’은 광고회사 업무의 진화한 형태를 보여준다 (출처 : 퍼블리시스 그룹 공식 유튜브 채널)

퍼블리시스 그룹 창업자인 마르셀의 이름을 따서 ‘마르셀’이라고 불리는 인공지능 플랫폼은 전세계 8만여 퍼블리시스 구성원을 하나로 묶는 플랫폼입니다. 가장 두드러지는 점은 마르셀을 통해 전 세계 퍼블리시스 오피스가 연결이 되어 프로젝트와 경쟁 프리젠테이션에 세계 각국의 모든 구성원이 참여할 수 있는 시스템을 구축하고 있다는 점입니다. 이러한 시스템이 완성됨으로써 퍼블리시스 그룹의 크리에이티브를 한 곳에 모아 관리하여 광고주 관리를 효율적으로 하게 하고 크리에이터에게 영감을 줄 수 있는 기회가 만들어지고 있습니다.

또 하나 특별한 점은 칸느 광고제와의 협업으로 20만 건 이상의 수상작 정보를 분석, 수상 광고들의 패턴을 파악함으로써 미래의 크리에이티브 개발에 영향을 미칠 수 있게 되었다는 점입니다. 마르셀은 또한 구성원의 업무과 관련된 행동패턴 경험 등을 분석하여 업무상 효율적인 시간관리 및 경비관리 등과 같은 행정적인 부분을 관리해 업무의 효율성을 높일 수 있도록 하였습니다. 현재는 모바일 앱의 형태로 소개가 되고 있으며 향후 인공지능 기능을 탑재하여 연결성과 편리성, 방대한 데이터의 분석으로 광고회사의 업무를 보다 효과적이고 효율적으로 수행할 수 있게 해줄 것이라고 기대합니다 (Emily Tan,Campaign US, May 24, 2018)


광고 크리에이티브에서 머신러닝과 인공지능이 적용되는 경우는 크리에이티브의 최적화(Optimization)입니다. 집행된 광고 크리에이티브의 효과를 측정하여 그 결과를 바탕으로 최적화하여 광고 크리에이티브의 효과를 증가시킬 수 있습니다. 온라인 광고는 애널리틱스 매트릭스로 상대적으로 쉽게 최적화가 가능한 반면 텔레비전 광고나 인쇄 광고의 크리에이티브는 고려해야 할 요소가 많아서 복잡하고 많은 시간이 소요됩니다. 크리에이티브의 각 요소 분석이 완료되면 매출과 관련이 있는 광고 타입, 혹은 소비자의 선호도를 올리는 광고 타입 등 일정 수준의 광고 크리에이티브 표준화가 가능해질 수 있습니다.

높은 도달율로 인해 효과적으로 평가를 받는 미국의 슈퍼볼 광고는 광고에 담긴 크리에이티브한 아이디어 때문에 대중적인 인기를 끌고 있습니다. 슈퍼볼 광고의 내용분석(Content Analysis)을 통해 크리에이티브의 어떤 요소들이 소비자의 선호와 관련이 있는지에 대한 연구들이 많이 수행되었고, 유머와 성적인 요소들이 가미된 광고들과 어린아이와 동물이 사용된 광고들이 소비자의 높은 선호를 받았다는 연구 결과는 이미 보편적인 내용이 되었습니다. 많은 양의 광고 크리에이티브에 대한 새롭고 다양한 분석을 다른 소비자와 시장에 관련된 빅데이터들과 함께 분석하여 머신러닝과 인공지능이 디지털 시대에 맞는 크리에이티브 솔루션을 제공할 수도 있습니다.


머신러닝과 인공지능의 한계에 대한 우려

하지만 머신러닝과 인공지능의 한계를 지적하고 있는 의견 또한 존재합니다. 미국의 광고분야 매체 ‘애드 에이지’ 2018년 6월 28일자에 기고한 굿바이 & 실버스타인(Goodby & Silverstein)의 브라이언 맥퍼슨(Brian McPherson)의 칼럼은 이러한 우려를 잘 보여줍니다.

맥퍼슨은 ‘정말 걱정되는 것은 인간이 기계처럼 생각하는 것이다’라는 제목 하에 인공지능 기술을 광고 크리에이티브에 적용하는 것에 대한 주의를 환기시키고 있습니다. 그는 머신러닝, 딥러닝, 뉴런네트워킹을 아우르는 인공지능은 복잡한 일을 수행하고 있긴 하지만 결국은 컴퓨터 프로그래밍이라고 이야기합니다. 맥퍼슨의 기고에 따르면, 인공지능은 많은 양의 관찰과 빅데이터를 가지고 컴퓨터가 현재 존재하는 현상을 배우는 과정이고 그 결과로 미래를 예측하는 수준이어서 어느 수준까지는 발전을 할 수 있겠지만 결국엔 인간의 영역에는 접근을 하지 못할 것이라고 전망합니다.

그는 테크놀로지에 집중을 하고 있는 광고인들이 말하고 있는 ‘인공지능이 광고 크리에이티브의 미래다’라는 의견에 반박하며 인공지능이 만드는 크리에이티브는 ‘인위적(artificial)’이며, ‘진짜(true)’ 크리에이티브는 사람에 의하여 만들어지는 것이라는 주장을 펼치고 있습니다.


2017년 5월 23일자 ‘애드 에이지’에 기고한 쥴리 슐랙(Julie Schlack) 또한 머신러닝이 가지고 있는 한계점에 대하여 경고하고 있습니다. 머신러닝의 결과는 가능한 미래에 바탕한 것이 아니라 현재에 존재하는 패턴에 바탕을 두고 있기 때문에 머신러닝에 의존을 하게 되면 혁신의 가능성에 제약을 주게 될 위험이 있다는 주장이 그 내용입니다.

앞에서 말씀드렸듯이, 머신러닝과 인공지능은 데이터 사이언스의 한 부분이고, 현재 존재하는 다양하고 방대한 데이터를 수학에 바탕을 둔 통계기법을 활용한 컴퓨터 알고리즘으로 주어진 환경에서 가장 보편타당한 예측을 하는 것이라고 할 수 있습니다.

러시아 월드컵에서 인공지능이 잘못된 예측 결과를 제공한 것처럼 머신러닝과 인공지능이 지닌 한계점은 분명히 존재합니다. 그렇지만 인공지능 개발자는 물론 인공지능 또한 스스로 발전하고 있으므로 머신러닝과 인공지능이 만들어 낼 광고의 미래에 대해 계속하여 관심있게 지켜볼 필요가 있으리라 생각합니다.

세 번째 칼럼은 데이터 사이언스가 가져올 변화에 대한 예측과 광고 마케팅 분야에서의 전략 변화에 대해 이야기해 보고자 합니다. 그러면 다음회 칼럼에서 다시 뵙겠습니다. 감사합니다.

Posted by HSAD