빅 데이터 프로세싱

최근 수정 시각:


Big data processing

1. 개요2. 활용
2.1. 한국
3. 관련 자격증4. 기타

1. 개요[편집]

본래 경제 가치를 창출해 낼 수 있는 설문조사 결과 모음으로 정의되며 '빅 데이터 프로세싱'이란 빅 데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의되었다. 그러나 빅 데이터 기술이 대중에게 유명해진 지금은 경제 분야에 국한되어 쓰이지 않는 용어가 되었다. 업체들이 난립하고 있으며, 대형 벤더에서는 솔루션 업체들을 인수하여 솔루션을 강화하고자 하는 실정이다. 사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행 중이다. 그러나 아직까지 뚜렷한 성과를 낸 기업은 2012년 기준으로 대한민국에는 없는 모양. 유엔에서도 이와 관련하여 빅 데이터를 국제개발 및 사회발전에 활용하기 위해 BD4D(Big Data for Development)라는 개념도 만들었다. 대표적인 것이 유엔 글로벌 펄스(UN Global Pulse).

빅 데이터의 특징을 규모 (대용량), 다양성, 속도, 정확성, 가치로 보아 3V, 4V, 5V 등으로 표현하기도 한다. 3V 문서 참조.

대용량 데이터를 가지고 있으면 자료 관리 기술과 자료 분석 기술이 필요하다. 자료 관리 기술은 Hadoop 등을 이용한다. 자료 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등을 이용한다.

편의상 줄여서 "빅데이터"라고도 부르기도 한다.[1]

2. 활용[편집]

  • 예방의학과
    존 스노우가 빅 데이터를 활용해 콜레라를 퇴치한 이후, 각종 전염병 전파과정의 기본적인 규명방법으로 사용되고 있다.

  • 추천 엔진[2]
    '페이스북의 당신이 알 수도 있는 사람', '아마존 추천 상품' 등

  • 검색엔진의 검색어 분포도를 통한 데이터 추출
    특정 사용자가 검색하는 검색어 패턴이나 클릭해서 본 적이 있는 각종 인터넷 광고들의 통계를 내서 정확도 순서로 맞춰 리스트를 출력해 주는데, 이것이 빅 데이터 응용의 기본 개념이다. 특정 지역에서 감기 또는 감기약 등의 검색어를 사용하는 빈도가 늘어난다고 하면 해당 지역에 감기약의 공급을 늘릴 필요가 있다.[3]

  • 시내버스 노선 통계
    이전에는 요금함을 일일이 뒤져서 액수 다 세고 그리고 어디서 내리는지도 알 수 없었으나 수도권 통합 요금 도입으로 인해 내릴 때 카드를 찍는 것이 일반화되어 승하차량을 좀 더 간편히 알 수 있게 되어 시내버스 노선을 새로 짤 경우 유용하게 사용될 수 있다.

  • 심리/동향 분석
    SNS 포스팅이나 인터넷 광고 클릭 성향 등을 통한 맞춤형 정보 제공.

  • 정당 후보의 선거 유세
    SNS속 빅 데이터의 분석으로 유권자 개개인의 특성과 성향을 분류하고 이에 따라 마이크로 타기팅이 가능. 실제로 2012 미국 대선에서 민주당 오바마 당시 후보가 사용했던 선거 전략으로, 약 1억 건의 빅 데이터 분석을 통해 유권자의 정당 지지 성향, 관심 공약, 투표율 등을 고려하여 약 600종류의 이메일로 선거활동을 한 바 있다.

  • 리스크 모델링
    금융업계에서의 투자 시나리오 작성 보조

  • 인터넷 사기 탐지
    거래 데이터 및 평가도 기준으로 필터링 가능. 남아프리카의 보험사 Santam 사에서는 예측 분석과 위험 세분화 등을 통해 발견한 패턴으로 보험 사기를 좀 더 빠르게 적발하고, 보험 사기 확률이 낮은 건에 대한 처리 속도를 개선해 고객 만족도 역시 높였다.

  • 각종 네트워크 모니터링
    빅 데이터 통합 카테고리로 통합된 온라인 업무 정리

  • 인간 게놈 분석을 통한 맞춤 의학의 실현

  • 인공지능 구현
    대표적으로 알파고가 있었으며, 블리자드 엔터테인먼트도 자사의 게임 플레이를 취합해 사용함으로써 인공지능 구현 수준이 높다는 평을 받고 있다.

2.1. 한국[편집]

2015년 미국에서는 이미 380억 달러 규모의 시장이 형성되어 있다고 한다. 이는 약 38조원 규모의 한국 시장의 150배. 국내 시장은 데이터 수집 영역만 과포화되어 있으며, 그 대신 서비스 관리 플랫폼(SMP) 및 데이터 가공 영역, 데이터 통합 영역 등은 빈약하다고 한다. 문제는 별다른 성과 없이 국내 업계에서 빅데이터 논의가 사그라드는 조짐이 보인다는 것이다. 이는 국내에서는 CRM → 소프트웨어 시스템 구축 → 하둡 → 빅데이터 → 사물인터넷인공지능 & 딥러닝 같은 식으로 돌아가면서 구호만 반복하고 있기 때문이라는 분석도 있다. 즉 데이터 활용의 현황을 파악하고 통찰을 얻지 못하고 있기 때문에 시간 낭비만 하고 있다는 게 데이터 업계의 푸념이다.

3. 관련 자격증[편집]

4. 기타[편집]

종종 조지 오웰의 빅 브라더와도 관련되어 언급되곤 한다. 혹시 혼동할까봐 구별하자면 빅 데이터는 데이터베이스 관련 기술명이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것이다. 물론 "데이터 권력", "정보 권력" 이라 하여 빅 데이터가 절대적 권력자의 손에 들어가는 순간... 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도인데 이렇게 되면 뭐...

데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 사생활 침해개인정보 유출의 문제가 발생할 수 있다. 솔직히 말이 좋아 개인 SNS 빅 데이터 분석이지, 까놓고 말하면 그냥 숫제 도청과 크게 다를 바 없다.(…) 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.

임태훈 교수의 저서《검색되지 않을 자유》에서는 빅 데이터로 인한 정형화된 인간의 만연에 대해 경계할 것을 요구한다. 정보 유출 같은 문제를 떠나 인간으로서의 존엄성과 같은 철학적인 부분까지도 재검토해볼 필요가 있을 것이다.

[1] 이 "빅데이터"라고 쳐도 이 항목으로 들어올 수 있다.[2] Recommend system or engine,1992 Goldberg.[3] 이 활용법이 서울대 의대 면접 제시문으로 등장했다. #