Data Insight Value

빅데이터는 데이터 사이언티스트의 분석을 통해 인사이트로 바뀌고, 의사결정자의 액션을 통해 밸류로 바뀝니다. "빅데이터 = Volumne, Velocity, Variety"라는 IT 정의가 있듯이, "빅데이터 = 비즈니스 밸류 창출의 근거가 되는 인사이트의 재료"라고 비즈니스적으로 정의할 수 있습니다.



Amazon은 고객 사용 내역(빅데이터)로부터 누가 어떤 제품을 구매할까를 이해하여 (인사이트) 매출의 40%(밸류)를 추천으로 만듭니다.
GE는 항공 엔진 운항 데이터(빅데이터)로부터 각 부품의 고장 가능 확률 (인사이트)을 계산하여, 이를 바탕으로 하드웨어가 아닌 서비스를 판매하고 있습니다(밸류).
빅데이터가 없던 시대에도, 엔지니어(마케터)는 설비에 대한 물리학적(소비자에 대한 심리학적) 지식으로, 수 년 간의 실무 경험으로, 그리고 설명할 수 없는 영감으로 인사이트를 도출하였습니다. 이제는 거기에 빅데이터가 주는 객관적 인사이트를 추가하여 더 나은 밸류를 창출 할 수 있습니다.

빅데이터를 인사이트로 바꾸고 거기서 밸류를 창출하는 과정을 “빅데이터 실행"이라고 한다면, 밸류에 대한 비젼을 세우고, 이를 가능케하는 인사이트를 상정하고, 이를 추출할 수 있는 데이터를 찾는 과정은 “빅데이터 기획"이라고 합니다.
멋진 디너 파티를 성공적으로 하려면, 참석자의 성향을 파악하여 그에 맞는 분위기에 대한 계획을 세우고, 거기에 맞는 요리를 선정하고, 필요한 재료를 찾아 나가야 합니다. 기획을 하지 않고 실행만 하는 빅데이터 시도는 마치 디너 파티 3시간 전에 냉장고 문을 열어보고 거기 있는 재료로 만들 수 있는 요리를 만드는 것이나 마찬가지입니다. 빅데이터 기획을 하려면 리더, 의사결정자, 데이터과학자가 한 팀이 되어 브레인스토밍부터 구체적인 분석 전략을 구축해야 합니다. 이 과정에서 가장 중요한 사람은 비즈니스 밸류 창출에 관심이 있는 데이터 사이언티스트입니다. 이런 사람을 빅데이터 설계자 (Bigdata architect)라고 부릅니다

연혁

서울대학교 데이터마이닝센터(센터장: 조성준)는 1993년 설립되어 데이터마이닝 관련 학술 및 응용 연구를 수행하는 연구기관입니다. 16명의 박사와 62명의 석사를 배출하였고, 대학, 연구소, 기업 및 공공기관의 데이터 관련 분야에서 활약하고 있습니다. 현재 24명의 석박사과정 연구원들이 데이터마이닝 연구에 몰두하고 있습니다. 국내외 저널 및 학술대회에 160여 편의 논문을 발표하였고, 10여 건 이상의 국내외 특허와 상용소프트웨어를 개발하였습니다. 제품개발, 생산물류, 품질, 마케팅 영업, 파이낸스, 인사, 에너지, 보안 등 다양한 분야의 연구개발 프로젝트와 기업체 의사결정자들에 대한 데이터마이닝 교육 등의 산학협동을 수행하여 왔습니다.

비젼

  1. 머신러닝, 자연어처리 데이터마이닝 알고리즘을 개발하고, 이들을 실제 비즈니스 데이터에 적용하여 인사이트를 도출합니다.
  2. 알고리즘의 정확도 및 수행 속도 향상에서 한 걸음 더 나아가 비즈니스 밸류 창출에 직접적으로 사용될 수 있는 인사이트 도출을 추구합니다.
  3. 데이터 사이언티스트의 기술적 역할에서 한 걸음 더 나아가 빅데이터 설계자/아키텍트 역할을 추구합니다.
  4. 이를 통해 기업, 공공 및 과학기술 발전에 공헌하고자 합니다.

In Media

  1. 개봉일 잡으러 점집? 이젠 빅데이터에 물어보죠, 2017. 02., 조선일보
  2. 데이터 시각화 솔루션 ‘스폿파이어’ 이용자들이 한자리에, 2016. 12., 컴퓨터월드
  3. 카드업계 이끄는 신한 `AI 플랫폼` 비결은…오픈 이노베이션, 2016. 12., 매일경제
  4. 美아마존은 사고 싶은 책 미리 배달, 2016. 11., 매일경제
  5. 제2기 정부3.0추진위 출범…민간위원 4명 새로 위촉, 2016. 7., 뉴스1
  6. 조직 관행 뒤집는 빅데이터 결과 수용…리더 '의지'가 중요, 2016. 3., 뉴시스
  7. 정부3.0 빅데이터 정책토론회, 2015. 12., 매일경제
  8. 데이터사이언티스트를 찾아서, 2015. 10., 컴퓨터월드
  9. 公共 데이터 더 개방해야 국민이 편해진다, 2015. 9., 조선일보

Data Mining FAQ

  • 데이터마이닝이란 무엇인가요?
  • 데이터마이닝(Data Mining)이란 데이터 간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 인사이트(insight) 와 포사이트(foresight)를 도출함으로써, 사실에 근거한 객관적 의사결정을 가능하게 하는 일련의 계산 과정입니다.

  • 데이터마이닝이 나타나게 된 배경은 무엇인가요?
  • 최근의 비즈니스 환경에서는 시장 경쟁이 심화되어 기업이 가지고 있거나 접근할 수 있는 데이터를 총 동원하여 이를 의사결정에 잘 적용하는 것이 경쟁력의 척도가 되고 있습니다. 특히, "우리 회사의 중요 고객은 어떤 사람들인가?”, “불량의 원인이 되는 핵심 공정 파라미터는 무엇인가?”, “소비자들이 원하는 제품 서비스는 무엇인가?”와 같은 인사이트와, "이탈 가능성이 높은 고객은 누구인가?”, “불량을 최소로 하는 최적 공정 파라미터는 무엇인가?", “향후 제품 수요 및 경기는 어떻게 될까?” 와 같은 미래에 대한 포사이트를 가지고 있는 것이 중요합니다. 이를 위하여 데이터를 수집, 보관, 정리, 청소, 분석, 이해하는 일련의 과정이 필요합니다.

  • 빅데이터와는 어떤 관계가 있나요?
  • 최근 분산 데이터베이스 (distributed database) 기술 및 병렬처리 (parallel processing) 기술 발전에 힘입어, 대량의 (volume), 빨리 생성되는 (velocity), 숫자 뿐만 아니라 텍스트와 이미지 동영상 같은 다양한 (variety) 데이터로 대표되는 빅데이터 (big data) 도 분석 가능해졌습니다. 바로 이 빅데이터 분석(analytics)이 데이터마이닝입니다.

  • 데이터마이닝으로 성공한 기업이 있나요?
  • 데이터마이닝 실력이 핵심 경쟁력인 대표적인 기업으로서 구글 (Google), 아마존 (Amazon), 페이스북 (Facebook)이 있고, 국내에는 네이버가 있습니다. 구글과 네이버는 검색엔진에 사용자가 검색어를 입력하면 이에 맞는 광로를 효과적으로 보여주고 있으며, 아마존은 2억명이 넘는 쇼핑객들의 과거 쇼핑 패턴을 분석하여 개인화된 화면을 제공하고 관심 있을만한 아이템을 추천하기도 합니다. 전체 매출의 30%를 추천에서 얻고 있습니다. 최근에는 예측배송이라는 특허까지 출원하여, 주문하지 않아도 내가 원하는 물품이 배송되는 날이 곧 올 것입니다. 페이스북은 전세게 10억명이 넘는 사용자들 간의 친소관계를 데이터로 이해하고 있으며, 이를 통해 상품 추천 등의 다양한 서비스를 제공하려고 합니다.

  • 일반적으로 기업에서는 데이터마이닝을 어떻게 활용하나요?
  • 데이터마이닝 자체가 주 업무는 아니지만 데이터마이닝을 잘 활용하여 업무에서의 의사결정 질을 높이는 사례는 무수히 많으며, 현재 많은 기업에서 추진하고 있습니다. 그 가운데 특히 금융 분야에서는 신용 평가, 신용카드 사기 탐지, 증권가격 예측, 포트폴리오 평가, 분식회계 탐지 등에 활용하였고, 통신 분야에서는 타겟 마케팅, 고객 이탈 예측 등에 활용하였습니다. 유통 분야에서도 추천, 타켓 켐페인 등에 적용되고 있습니다. 미국의 넷플릭스 (Netflix) 영화 서비스 업체는 추천을 통한 매출이 전체의 70%나 됩니다. 제조업은 센서의 정확도 향상과 가격 하락을 통해 공정의 많은 정보가 데이터화되고 있어, 이를 활용하려는 노력이 가장 활발한 곳입니다. 즉, 생산성 향상, 품질 향상, 재고 및 수요 관리, 제조 원가 절감 등을 이루고 있으며, 소셜데이터를 활용하여 신제품 개발의 방향성을 읽기도 하고, 출시된 제품에 대한 소비자들의 반응을 실시간으로 이해하여 대응하고 있습니다. 이외에도 의약품 개발이나 의료 서비스 분야에서는 질병 진단 및 유전자 분석 등에, 에너지 분야에서는 전력수요 예측 및 자원 탐사 등에 활용하고 있습니다.

  • 데이터마이닝을 하려면 어떠한 능력이 필요한가요?
  • 데이터마이닝 분석가가 되려면, 데이터 다루는 능력, 분석 능력, 그리고 비즈니스 전문가와의 소통 능력이 필요합니다. 데이터를 잘 다루려면 컴퓨터 기술, 즉, 데이터구조, 데이터베이스, 알고리즘, 프로그래밍 등의 컴퓨터 공학 지식을 공부해야하고, 분석을 잘 하려면 다변량 통계, 확률, 인공지능 기계학습을 습득해야하고, 그리고 비즈니스 전문가와 소통하려면 해당 문제에 대한 빠른 이해, 말과 글을 통한 소통 능력 등이 필요합니다. 이 모든 능력을 갖추려면 컴퓨터공학, 통계학, 인공지능, 해당 응용 분야를 모두 공부해야 하므로 한 사람의 개인이 하기에는 쉽지 않습니다. 한 가지 방법은 복수전공 및 대학원 공부로 커버하는 것이고, 또 한 가지 방법은 산업공학과 같은 다학문적 (multidisciplinary) 전공을 하는 것이 있습니다. 현재 국내외에 이 분야의 전문가들이 턱없이 부족하여, 좋은 기회를 살리지 못하고 있습니다. 기업에서는 한 분야만 전공한 사람들이 팀을 이루어서 일을 하기도 합니다. 2012년 2월 뉴욕타임즈지에 따르면 미국 내에서만 데이터 분석가가 14만~19만 명이 당장 필요하다고 합니다. 국내에서도 2012년 삼성경제연구소가 조사한 바에 따르면 국내의 빅데이터 전문가는 대략 100명 정도 있다고 하는데, 이는 실제 수요에 비하여 턱 없이 부족한 숫자입니다. 국내외의 많은 기업들은 빅데이터, 데이터마이닝 전문가를 목 말라 하고 있는 실정입니다.

  • 데이터마이너라는 직종의 향후 전망은 어떤가요?
  • 먼저 수요 측면을 보기로 합니다. 향후 전 세계에서 생성되는 데이터의 양은 줄거나 정체되지 않고 계속 늘어날 것입니다. 실제로 지수적으로 증가할 것으로 예상됩니다 (exponential growth). 또한, 비즈니스 환경에서 경쟁은 점차 가열되어 기업들은 데이터라는 중요한 자원을 어떻게 해서든지 활용하려고 할 것입니다. 최근에는 서울시 심야버스 노선 결정에 사용해서 유명해졌듯이, 정부나 공공부문에서도 빅데이터를 활용하여 똑똑한 의사결정, 정책결정을 하려고 합니다. 따라서 이 분야 분석 전문가에 대한 수요는 지금보다 훨씬 더 늘어날 것입니다. 한편, 공급 측면을 보면, 앞에서 언급한대로 여러 학문분야를 공부해야 하므로 현재 전문가가 많지 않습니다. 다만, 미국에서는 하버드, 컬럼비아, 스탠포드 등 20여 개 대학에서 최근에 학제적인 데이터 애널리틱스 실무형 석사과정을 개설하고 있어서 어느 정도 공급이 되고 있습니다. 그러나 우리나라에서는 수도권에 인구와 산업이 과도하게 집중되는 것을 막기 위해 1982년 12월 제정된 수도권정비계획법에 따라 교육부에서 대학 정원 증원을 규제하고 있어, 이러한 새로운 학제적 교육 과정이 수도권에 등장하는 것은 요원합니다. 따라서 국내에서는 데이터마이너의 공급이 극히 제한되고 있습니다. 즉, 수요는 매우 많은데 비해, 공급은 매우 작으므로, 이 분야를 공부하여 전문가가 되는 사람에게는 매우 좋은 미래가 있다고 할 수 있습니다.