본문 바로가기

개발자/IT

빅데이터란?

반응형

빅데이터(Big Data) 모래알 수보다 더 많은 데이터가 몰려온다

글로벌 금융위기로 인해 미국에서는 탈세와 사기 등 금융범죄도 늘어났고 이는 다시 국가의 재정에 위기를 안겼다. 미국의 탈세 금액은 2010년을 기준으로 저소득층의 의료보장 총액을 초과했을 정도다. 결국 미국 국세청은 탈세를 줄여보기 위해 사기 범죄 방지 솔루션, 소셜네트워크 분석, 데이터 통합과 마이닝 등을 활용해 세금 누락을 막고 불필요한 세금 환급을 줄이는 효과도 얻었다. 어떻게 이런 일이 가능했을까. 답은 대용량 데이터의 활용과 빅데이터(Big Data) 분석에 있다.

정보의 홍수속에서 이제 데이터는 새로운 ‘원유’라는 평가를 받고 있다.

미국 국세청은 2011년 대용량 데이터와 IT기술을 결합해 ‘통합형 탈세 및 사기 범죄 방지 시스템’을 구축했다. 사기 방지 솔루션으로 이상 징후를 미리 찾아냈는데, 예측 모델링을 통해 납세자의 과거 행동 정보를 분석한 다음 사기 패턴과 유사한 행동을 검출했다. 그 뒤 페이스북이나 트위터를 통해 범죄자와 관련된 계좌, 주소, 전화번호, 납세자 간 연관관계 등을 분석해 고의 세금 체납자를 찾아냈다. 이 과정에서 미 국세청은 오픈소스 기반의 대용량 데이터 처리 소프트웨어인 하둡(Hadoop) 등을 적용해 저렴한 비용으로 데이터를 분석했고 그 결과 연간 3,450억 달러에 이르는 세금 누락을 막아냈다.

미 국세청의 사례는 빅데이터의 활용 사례 중 일부다. 이제 빅데이터를 적절하게 처리하고 분석하면 미 국세청의 사례처럼 예전에는 생각도 못했던 일들도 가능해졌다. 대체 빅데이터가 뭐길래?

빅데이터는 정보시대의 ‘원유’

빅데이터가 다양한 가치를 만들어내기 시작하면서 사람들은 빅데이터를 ‘원유’에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 “데이터는 미래 경쟁력을 좌우하는 21세기 원유”라며 “기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다”라고 강조했다. 21세기 기업에게 가장 중요한 자산은 ‘데이터’이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.

빅데이터는 ‘빅(Big)+데이터(Data)’식의 단순 합성어가 아니다. 빅데이터를 ‘어마어마하게 많은 데이터’라는 식으로 받아들이면 본질적인 의미와 가치를 놓치게 된다.

기존의 기업 환경에서 사용되는 ‘정형화된 데이터’는 물론 메타정보와 센서 데이터, 공정 제어 데이터 등 미처 활용하지 못하고 있는 ‘반정형화된 데이터’, 여기에 사진, 이미지처럼 지금까지 기업에서 활용하기 어려웠던 멀티미디어 데이터인 ‘비정형 데이터’를 모두 포함하는 것이 빅데이터다.

가트너는 빅데이터의 주된 특징으로 크기, 다양성, 속도 등을 꼽았다. 단순히 데이터 양이 많다고 해서 빅데이터라고 부를 수 있는 건 아니란 얘기다.

여기에서 크기(Volume)는 데이터의 물리적 크기를 말한다. 크기는 기업 데이터, 웹 데이터, 센서 데이터 등 페타바이트(PB) 규모로 확장된 데이터를 말한다. 다양성(Variety)은 데이터의 형태를 말한다. 기존 기업 데이터 환경에서 사용하는 관계형 데이터베이스(RDB)에 저장된 데이터인지, 웹 로그(Web log: 웹 서버에 남은 사용자 데이터)나 기기 데이터와 같은 데이터인지, 비디오나 이미지 같은 비정형 데이터인지 등 데이터의 형태에 따라 그 종류가 나뉜다. 빅데이터는 이 모든 데이터를 포함하기 때문에 이를 다룰 수 있는 기술이 필요하다. 마지막으로 속도(Velocity)다. 빅데이터의 중요한 특징으로도 꼽히는 '속도'는 곧 데이터 처리 능력을 말한다. 데이터를 수집 · 가공 · 분석하는 일련의 과정을 실시간 또는 일정 주기에 맞춰 처리할 수 있어야 한다.

또 다른 시장조사기관 IDC는 빅데이터를 다음과 같이 정의하고 있다. "빅데이터 기술은 다양한 형태로 구성된 방대한 크기의 데이터로부터 경제적으로 필요한 가치를 추출할 수 있도록 디자인된 차세대 기술이다."

정리해보면, 빅데이터는 단순히 대용량 데이터 그 자체만을 지칭하는 것이 아니라 그 데이터를 효과적으로 처리하고 분석할 수 있는 기술에 더 초점을 둔 용어라고 할 수 있다. 기업의 관점에서는 ‘가치를 생성할 수 있는 데이터’를 빅데이터라고 해석하기도 한다.

과거엔 빅데이터가 없었나

여기서 드는 의문 하나. 이전에는 빅데이터가 없었다는 말인가? 결론부터 말하자면 '그렇다'이다. 데이터의 양적인 측면만 봐도 그렇다. 이전의 데이터는 빅데이터라고 부르기가 민망할 정도다.

미국의 저장장치업체 EMC가 IDC에 의뢰해 발표한 ‘디지털 유니버스 보고서 : 빅데이터, 더욱 길어진 디지털 그림자, 이머징 마켓의 놀라운 성장1)’ 이란 연구보고서의 결과를 보자. 전세계적으로 2012년 한해동안 생성된 데이터의 양은 2.8제타바이트(ZB)로, 이전까지 생성된 데이터 양을 모두 합친 것보다 많다. 우리는 지금 과거의 데이터 환경과는 전혀 다른 ‘빅데이터’ 시대를 살고 있는 것이다.

따라서 빅데이터는 기존의 인프라와 아키텍처로는 더 이상 처리하고 분석하는 것이 어려운 데이터다. 과거와 현재 빅데이터의 차이를 표로 정리하면 다음과 같다.

데이터 분석에 대한 과거와 현재의 차이

물론 예전에도 슈퍼컴퓨팅을 이용해 거대한 양의 데이터를 분석할 수 있었다. 하지만 이는 비용 대비 효과가 낮았다. 수십억원을 들여야만 대용량 데이터를 분석할 수 있었고, 이는 정부 차원에서나 할 수 있는 일이었다.

하지만 현재의 ‘빅데이터 시대’는 저렴한 비용으로 엄청난 데이터를 효과적으로 처리할 수 있게 됐다는 의미도 내포하고 있다. 비정형 데이터를 분석할 수 있는 자연어처리 기술과 텍스트 분석, 하둡 등과 같은 기술이 뜨면서 기업은 과거 대용량 데이터 처리에 들었던 비용과는 비교가 안될 정도의 저렴한 비용으로 복잡한 데이터 안에서 적절하게 정보를 추출하고 이를 기존 정보와 통합해 가치를 전달할 수 있게 됐다.

같은 데이터라도 해도 기업이 많은 비용을 들여 분석해야 하는 데이터라면 빅데이터가 아니다. 그 예로 과거에도 사용자 콜 데이터를 저장하고 분석했지만 이를 빅데이터라고 부르지 않았던 것처럼 말이다.

EMC 디지털유니버스보고서 중 일부

빅데이터 활용하려면 ‘데이터 과학자’가 필요해

빅데이터를 다루는 일이 중요해지면서, 이를 맡아 진행하는 전문가도 덩달아 주목받고 있다. 기업은 자신들이 보유하고 있는 데이터를 분석해 특정한 결과를 얻어내고 싶어하는데, 이를 위해 데이터를 수집하고 정리하고 분석해 보기 편하게 자료를 만드는 전문가의 역할이 중요해졌다.

EMC에 따르면, 빅데이터를 제대로 활용하려면 ▲기업의 비즈니스 요구사항을 확인하고 ▲필요한 데이터를 검색 · 준비하고 ▲적절하게 데이터를 분석할 수 있는 모델을 구축하고 ▲모델링 검증작업을 거쳐 ▲실전에 적합한지 확인하는 작업 등이 필요하다.

이른바 ‘데이터 과학자(Data Scientist)’는 이런 작업을 도와주는 사람이다. 빅데이터는 쌓아두기만 하면 가치가 없다. 활용해야 가치가 생긴다. 빅데이터 전문가인 데이터 과학자는 통계학, 컴퓨터과학, 머신러닝 등 기본적인 데이터 분석에 대한 이해뿐만 아니라 프로그래밍 실력과 특정 도메인에 대한 비즈니스 지식도 필요하다.

빅데이터가 뜨면서 데이터 과학자에 대한 관심도 덩달아 커지고 있다.

대표적인 데이터 과학자로 알려진 존 라우저 아마존 수석 엔지니어는 2011년 포브스와 가진 ‘데이터 과학자란 무엇인가2)’라는 인터뷰에서 데이터 과학자가 가져야 할 자질로 무엇보다 다음을 꼽았다.

“우선 데이터 과학자는 수학과 공학 능력을 기본으로 갖춰야 합니다. 데이터를 분석하고 살펴보는 데는 수학적인 재능이, 엄청난 데이터를 분석하기 위한 솔루션을 작동시키기 위해 공학적인 능력이 필요합니다.”

데이터 과학자의 손길을 원하는 이들도 늘었다. 2011년 5월 발표된 맥킨지 보고서에 따르면 미국에선 2018년까지 14만~19만명의 전문가, 150만명 정도의 데이터 관리자와 분석 인력이 필요할 것이라고 전망했다. EMC가 발표한 ‘데이터 과학자 연구 2011’ 보고서는 향후 5년 동안 데이터 과학자에 대한 수요가 공급을 뛰어넘을 것으로 내다봤다.

국내에서도 데이터를 관리하고 분석할 줄 아는 인재에 대한 관심이 높다. 서울대학교를 비롯해 충북대학교 등은 데이터를 관리하고 분석할 수 있는 인재를 체계적으로 육성하는 데이터마이닝, 비즈니스 데이터 융합학과를 개설하기도 했다.


출처 : 이지영 블로터 기자

반응형

'개발자 > IT' 카테고리의 다른 글

윈도우 10  (0) 2015.10.13
IOT (Internet Of Things)  (0) 2015.10.13
핀테크란?  (0) 2015.10.13
가상현실이란??  (0) 2015.10.13
IT용어 정리  (0) 2015.10.07