빅데이터는 데이터 사이언티스트의 분석을 통해 인사이트로 바뀌고, 의사결정자의 액션을 통해 밸류로 바뀝니다. "빅데이터 = Volumne, Velocity, Variety"라는 IT 정의가 있듯이, "빅데이터 = 비즈니스 밸류 창출의 근거가 되는 인사이트의 재료"라고 비즈니스적으로 정의할 수 있습니다.
Amazon은 고객 사용 내역(빅데이터)로부터 누가 어떤 제품을 구매할까를 이해하여 (인사이트) 매출의 40%(밸류)를 추천으로 만듭니다.
GE는 항공 엔진 운항 데이터(빅데이터)로부터 각 부품의 고장 가능 확률 (인사이트)을 계산하여, 이를 바탕으로 하드웨어가 아닌 서비스를 판매하고 있습니다(밸류).
빅데이터가 없던 시대에도, 엔지니어(마케터)는 설비에 대한 물리학적(소비자에 대한 심리학적) 지식으로, 수 년 간의 실무 경험으로, 그리고 설명할 수 없는 영감으로 인사이트를 도출하였습니다. 이제는 거기에 빅데이터가 주는 객관적 인사이트를 추가하여 더 나은 밸류를 창출 할 수 있습니다.
빅데이터를 인사이트로 바꾸고 거기서 밸류를 창출하는 과정을 “빅데이터 실행"이라고 한다면, 밸류에 대한 비젼을 세우고, 이를 가능케하는 인사이트를 상정하고, 이를 추출할 수 있는 데이터를 찾는 과정은 “빅데이터 기획"이라고 합니다.
멋진 디너 파티를 성공적으로 하려면, 참석자의 성향을 파악하여 그에 맞는 분위기에 대한 계획을 세우고, 거기에 맞는 요리를 선정하고, 필요한 재료를 찾아 나가야 합니다. 기획을 하지 않고 실행만 하는 빅데이터 시도는 마치 디너 파티 3시간 전에 냉장고 문을 열어보고 거기 있는 재료로 만들 수 있는 요리를 만드는 것이나 마찬가지입니다.
빅데이터 기획을 하려면 리더, 의사결정자, 데이터과학자가 한 팀이 되어 브레인스토밍부터 구체적인 분석 전략을 구축해야 합니다.
서울대학교 빅데이터 AI 센터(센터장: 조성준)는 1993년 설립되어 빅데이터와 인공지능 관련 학술 및 응용 연구를 수행하는 연구기관입니다. 2023년 3월 기준 27명의 박사와 100명의 석사를 배출하였고, 대학, 연구소, 기업 및 공공기관의 데이터 관련 분야에서 활약하고 있습니다. 현재 45명의 석박사과정 연구원들이 빅데이터 및 AI 연구에 몰두하고 있습니다. 국내외 저널 및 학술대회에 200여 편의 논문을 발표하였고, 10여 건 이상의 국내외 특허와 상용소프트웨어를 개발하였습니다. 제품개발, 생산물류, 품질, 마케팅 영업, 파이낸스, 인사, 에너지, 보안 등 다양한 분야의 연구개발 프로젝트와 기업체 실무자 및 C레벨 의사결정자들에 대한 빅데이터 AI 교육, 자문 등의 산학협동을 수행하여 왔습니다.
최근 사물인터넷 (Internet of Things) 과 소셜미디어 (Social Media) 의 발달로 대량의 (volume), 빨리 생성되는 (velocity), 숫자 뿐만 아니라 텍스트와 이미지 동영상 같은 다양한 (variety) 데이터가 생성되고 있습니다. 여기에 분산 데이터베이스 (distributed database) 기술 및 병렬처리 (parallel processing) 기술 발전에 힘입어 이러한 데이터를 수집, 보관, 정리, 청소가 가능해졌습니다. 이를 빅데이터라고 합니다. 인공지능은 사람 수준의 주변 인지를 통해 추론을 하여 액션을 하는 컴퓨터입니다. 전문가의 지식을 IF THEN 룰로 표현하여 연역 추론을 하는 방법과 실제 벌어진 상황을 기록한 데이터를 학습하는 귀납적 방법이 있습니다. 그 중에 최근 급속히 많아진 빅데이터를 학습하여 지능을 구현하는 방식인 기계학습 방식이 매우 각광을 받고 있습니다. 인공지능은 데이터를 분석, 이해하는 일련의 과정이라고 볼 수도 있습니다. 이 과정은 데이터 분석, 빅데이터 AI(Data Mining), 또는 애널리틱스 (Analytics) 라고도 불리우며 데이터 간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 인사이트(insight) 와 포사이트(foresight)를 도출함으로써, 사실에 근거한 객관적 의사결정을 가능하게 하는 일련의 계산 과정입니다. 자세한 내용은 “세상을 읽는 새로운 언어, 빅데이터” 조성준, 2019, 21세기북스, 참고하세요.
최근의 비즈니스 환경에서는 시장 경쟁이 심화되어 기업이 가지고 있거나 접근할 수 있는 데이터를 총 동원하여 이를 의사결정에 잘 적용하는 것이 경쟁력의 척도가 되고 있습니다. 특히, "우리 회사의 중요 고객은 어떤 사람들인가?”, “불량의 원인이 되는 핵심 공정 파라미터는 무엇인가?”, “소비자들이 원하는 제품 서비스는 무엇인가?”와 같은 인사이트와, "이탈 가능성이 높은 고객은 누구인가?”, “불량을 최소로 하는 최적 공정 파라미터는 무엇인가?", “향후 제품 수요 및 경기는 어떻게 될까?” 와 같은 미래에 대한 포사이트를 가지고 있는 것이 중요합니다. 데이터 수집 및 분석을 핵심 경쟁력으로 삼은 대표적인 기업으로서 구글 (Google), 아마존 (Amazon), 메타 (Meta)가 있고, 국내에는 네이버와 카카오가 있습니다. 구글과 네이버는 검색엔진에 사용자가 검색어를 입력하면 이에 맞는 광로를 효과적으로 보여주고 있으며, 아마존은 2억명이 넘는 쇼핑객들의 과거 쇼핑 패턴을 분석하여 개인화된 화면을 제공하고 관심 있을만한 아이템을 추천하기도 합니다. 전체 매출의 30%를 추천에서 얻고 있습니다. 최근에는 예측배송이라는 특허까지 출원하여, 주문하지 않아도 내가 원하는 물품이 배송되는 날이 곧 올 것입니다. 메타는 전세게 10억명이 넘는 사용자들 간의 친소관계를 데이터로 이해하고 있으며, 이를 통해 상품 추천 등의 다양한 서비스를 제공하려고 합니다. 금융 분야에서는 신용 평가, 신용카드 사기 탐지, 증권가격 예측, 포트폴리오 평가, 분식회계 탐지 등에 활용하였고, 통신 분야에서는 타겟 마케팅, 고객 이탈 예측 등에 활용하였습니다. 유통 분야에서도 추천, 타켓 켐페인 등에 적용되고 있습니다. 미국의 넷플릭스 (Netflix) 영화 서비스 업체는 추천을 통한 매출이 전체의 70%나 됩니다. 제조업은 센서의 정확도 향상과 가격 하락을 통해 공정의 많은 정보가 데이터화되고 있어, 이를 활용하려는 노력이 가장 활발한 곳입니다. 즉, 생산성 향상, 품질 향상, 재고 및 수요 관리, 제조 원가 절감 등을 이루고 있으며, 소셜데이터를 활용하여 신제품 개발의 방향성을 읽기도 하고, 출시된 제품에 대한 소비자들의 반응을 실시간으로 이해하여 대응하고 있습니다. 이외에도 의약품 개발이나 의료 서비스 분야에서는 질병 진단 및 유전자 분석 등에, 에너지 분야에서는 전력수요 예측 및 자원 탐사 등에 활용하고 있습니다. 자세한 내용은 “데이터 천재들은 어떻게 기획하고 분석할까” 조성준 외, 2022, 21세기북스, 참고하세요.
빅데이터 AI 분석가가 되려면, 데이터 다루는 능력, 분석 능력, 그리고 비즈니스 전문가와의 소통 능력이 필요합니다. 데이터를 잘 다루려면 컴퓨터 기술, 즉, 데이터구조, 데이터베이스, 알고리즘, 프로그래밍 등의 컴퓨터 공학 지식을 공부해야하고, 분석을 잘 하려면 다변량 통계, 확률, 인공지능 기계학습을 습득해야하고, 그리고 비즈니스 전문가와 소통하려면 해당 문제에 대한 빠른 이해, 말과 글을 통한 소통 능력 등이 필요합니다. 이 모든 능력을 갖추려면 컴퓨터공학, 통계학, 인공지능, 해당 응용 분야를 모두 공부해야 하므로 한 사람의 개인이 하기에는 쉽지 않습니다. 한 가지 방법은 복수전공 및 대학원 공부로 커버하는 것이고, 또 한 가지 방법은 산업공학과 같은 다학문적 (multidisciplinary) 전공을 하는 것이 있습니다. 현재 국내외에 이 분야의 전문가들이 턱없이 부족하여, 좋은 기회를 살리지 못하고 있습니다. 기업에서는 한 분야만 전공한 사람들이 팀을 이루어서 일을 하기도 합니다. 국내외의 많은 기업들은 빅데이터 AI 전문가를 목 말라 하고 있는 실정입니다. 먼저 수요 측면을 보기로 합니다. 향후 전 세계에서 생성되는 데이터의 양은 줄거나 정체되지 않고 계속 늘어날 것입니다. 실제로 지수적으로 증가할 것으로 예상됩니다 (exponential growth). 또한, 비즈니스 환경에서 경쟁은 점차 가열되어 기업들은 데이터라는 중요한 자원을 어떻게 해서든지 활용하려고 할 것입니다. 최근에는 서울시 심야버스 노선 결정에 사용해서 유명해졌듯이, 정부나 공공부문에서도 빅데이터를 활용하여 똑똑한 의사결정, 정책결정을 하려고 합니다. 따라서 이 분야 분석 전문가에 대한 수요는 지금보다 훨씬 더 늘어날 것입니다. 한편, 공급 측면을 보면, 앞에서 언급한대로 여러 학문분야를 공부해야 하므로 현재 전문가가 많지 않습니다. 다만, 미국에서는 하버드, 컬럼비아, 스탠포드 등 20여 개 대학에서 최근에 학제적인 데이터 애널리틱스 실무형 석사과정을 개설하고 있어서 어느 정도 공급이 되고 있습니다. 그러나 우리나라에서는 수도권에 인구와 산업이 과도하게 집중되는 것을 막기 위해 1982년 12월 제정된 수도권정비계획법에 따라 교육부에서 대학 정원 증원을 규제하고 있어, 이러한 새로운 학제적 교육 과정이 수도권에 등장하는 것은 요원합니다. 따라서 국내에서는 데이터마이너의 공급이 극히 제한되고 있습니다. 즉, 수요는 매우 많은데 비해, 공급은 매우 작으므로, 이 분야를 공부하여 전문가가 되는 사람에게는 매우 좋은 미래가 있다고 할 수 있습니다. 더 자세한 내용은 “빅데이터 커리어 가이드북” 조성준 외, 2021, 길벗을 참고하세요.