[기획특집] IoT 시대, 실시간 빅데이터 분석의 부상

태동하는 실시간 분석 시장, 새로운 솔루션들의 군웅할거

 

[컴퓨터월드] 세상은 점점 더 빨라지고, 복잡해지고 있다. IT기술의 발전에 따라 데이터는 폭증하며 급류를 이루기 시작했고, 만물이 이어지는 초연결사회(Hyper-Connected Society)의 도래가 임박했다. 이러한 변화로 인해 경쟁마저 더욱 빠르고 복잡하게 전개되는 양상을 보인다. 치열해지는 경쟁에서 생존하기 위해서는 보다 빠르고 명확한 의사결정이 필수적이다. 이에 빅데이터 속에서 실질적인 인사이트를 실시간으로 얻는 것이 화두가 되고 있다.

최근 관련업계에서는 사물인터넷(IoT) 시대를 맞아 각종 기계로부터 쏟아지고 있는(machine-generated) 데이터에 대한 관심이 점차 늘어나고 있다. 사람들이 만들어내는(human-generated) 데이터와 달리, 기계는 끊임없이 정보를 쏟아내면서도 그 속에 거짓말은 찾을 수 없다. 이곳을 출발지로 삼으면서 실시간 빅데이터 분석 시장이 태동하고 있는 것이다. 각자 고유의 무기를 내세워 이 새로운 전장에 출사표를 던진 이들의 행보를 간단히 살펴본다.
 

   
 

IoT 시대, 분석거리가 쏟아진다

‘IoT’와 ‘분석’은 현재 가장 각광받고 있는 IT트렌드에 속한다. 시장조사기관 가트너는 지난해 말 ‘2015년 10대 전략 기술 동향’을 발표, 향후 3년간 기업에 주요한 영향을 미칠 가능성이 있는 기술들 가운데 이 두 가지를 선정했다. IoT 시대를 맞아 디지털화로 인해 생성되는 데이터 흐름과 서비스의 융합은 관리(manage), 현금화(monetize), 운영(operate), 확장(extend)이라는 네 가지 IoT 사용 모델을 창조, 모든 기업들은 산업과 무관하게 이 기본 모델을 활용해 디지털 비즈니스를 영위할 수 있게 됐다.

아울러 임베디드(embedded) 시스템이 생성하는 데이터의 양이 증가하고 기업 내외 정형·비정형 데이터 풀(pool) 분석이 가능해지면서 분석이 보편화되고 있다. 기업들은 IoT, 소셜 미디어, 웨어러블 기기에서 생성된 대량의 데이터를 적절히 분류, 알맞은 정보를 제때 필요한 곳에 정확히 전달하는 것을 과제로 안게 됐다. 이에 가트너는 분석 기술이 모든 곳에 내장돼 끝단에서 데이터가 처리되는 ‘엣지 애널리틱스(Edge Analytics)’가 대두될 것으로 보고 있다.

이러한 변화는 점차 가속화되고 있다. 시장조사기관 IDC는 오는 2018년까지 IoT에서 생성된 데이터의 40%가 보관되고 프로세스를 거쳐 분석될 것으로 예상했다. 또한 현재는 IoT의 50% 이상이 제조, 운송, 스마트시티 및 컨슈머 애플리케이션 분야에 집중돼있지만, 향후 5년 내 전 산업에서 IoT가 활성화될 전망이다. IDC는 기업들이 네트워크에 연결된 수많은 디바이스로부터 쇄도하는 데이터를 효과적으로 조율하기 위한 방안을 고심해봐야 한다고 강조했다.

IDC에 따르면, 글로벌 IoT 시장은 지난해 6,558억 달러에서 연평균 16.9% 성장, 오는 2020년에는 1조 7천억 달러 규모를 형성할 것으로 전망된다. 특히 한국을 비롯한 아시아·태평양지역(일본 제외)의 IoT 산업도 높은 성장세를 지속, 연결된 기기 및 사물(things) 대수가 31억 대에서 86억 대 규모로 증가할 것으로 내다봤다. 동기간 이 지역의 IoT 시장은 2,500억 달러에서 5,830억 달러 규모로 성장할 것으로 바라보고 있다.

기업이 관리하는 데이터 중 비정형데이터가 정형데이터보다 더 많아지고 있고, 빅데이터가 IoT와 결합하면서 웨어러블 시장 및 맞춤형 추천, 유통과 교통에 이르기까지 폭넓은 분야에 새로운 기술이 적용될 것으로 보인다. 지능적 보안 및 안보 분야에서도 실시간 모니터링과 리스크 감지 시장이 급격히 성장하고 있다. 특히 제조업 중심의 한국은 스마트팩토리 등 인더스트리 4.0 구현의 중요한 시장이 될 것이다.


실시간 분석 수요 확대

IoT 시대의 도래에 따라 빅데이터의 ‘실시간 분석’에 대한 니즈가 급증하고 있다. ‘온라인 분석’은 데이터의 생성 시점과 분석 시점의 구분이 없는 반면, ‘실시간 분석’은 데이터가 생성되는 시점에 최대한 가깝게 분석이 함께 이뤄진다. 이 ‘실시간’에 대한 기준은 업무 성격에 따라 분 단위, 초 단위, 1초 미만 등으로 다양하게 정의되고 있으나, 갈수록 이에 대한 요건이 다양화되는 동시에 강화되고 있는 추세다.

IoT 시대의 실시간 분석은 수많은 센서나 소셜미디어에서 생성되는 시계열(time series) 데이터를 그 대상으로 하며, 특히 각종 기계로부터 생성되는 로그데이터가 주재료가 되고 있다. 머신데이터는 빅데이터 중에서도 증가세가 가장 빠른 영역이며, 다양한 트랜잭션과 고객 행동, 센서 기록, 기계 설비 거동, 보안 위협, 사기 행위 등을 파악할 수 있다는 점에서 보다 빠르고 정확하게 실질적인 가치를 얻을 수 있다는 특징을 지녔다.

실시간 분석 솔루션을 표방하는 소프트웨어(SW) 기술들은 기존 OLAP(온라인분석처리) 영역의 분석용 데이터베이스관리시스템(DBMS)나 데이터웨어하우스(DW)와도 다소 차이를 보인다. 마치 라면을 조리할 시간과 여건이 부족할 때는 간단히 취식할 수 있는 컵라면을 찾는 것과 같다. 데이터를 분석하기 위해 ETL(추출·변환·적재)을 비롯한 여러 과정을 거쳐 DW에서 주기적으로 배치(batch) 처리할 필요 없이, 생성되는 데이터를 바로 처리하고 분석해 필요한 만큼의 인사이트를 빠르게 얻을 수 있는 것이다.

이러한 민첩성(agility)은 하둡(Hadoop)을 위시한 오픈소스 빅데이터 플랫폼과의 가장 큰 차이점이다. 하둡은 배치성 아키텍처를 근간으로 하므로 실시간성과는 동떨어져 있어, 인메모리(in-memory) 기술이 적용된 ‘아파치 스파크(Apache Spark)’ 등을 통해 이에 대한 보완도 진행되고 있다. 그러나 기업이 하둡에코시스템을 제대로 활용하기 위해 요구되는 대규모 컴퓨팅파워와 이를 유지관리하기 위해 필요한 고급인력은 결국 TCO(총소유비용)의 증가를 야기한다는 점에서 여전히 생각해볼 문제로 남는다. 더불어 실시간 분석 솔루션들은 짧은 구축기간, SQL 활용 등 사용성을 무기로 삼아 이 틈새를 공략하고 있다.

스트리밍 데이터를 메모리상에서 바로 연관분석을 수행하는 CEP(복합이벤트처리) 기술은 실시간 분석 솔루션과 상호보완적인 관계로 볼 수 있다. CEP 기술은 데이터의 저장 단계 전에 특정 로직을 통해 예외상황 등의 이벤트를 확인하고 처리하는 방식이므로, 저장된 데이터를 가공하거나 검색하는 기능이 없고 입력되는 데이터를 다루는 범위도 한계를 지니게 된다. 그러나 CEP 기술은 빠른 응답속도에 강점을 갖고 있어, 실시간 분석 솔루션의 앞단에 위치하거나 또는 내장돼 공존하며 시너지를 내는 것이 가능하다.


같은 목적, 다른 접근

실시간 분석 솔루션은 빠르게 성장하는 새로운 시장으로, 장차 우리에게 어떤 영향을 미치게 될 것인지 아직 가늠하기 어려운 부분도 있다. 그러나 현재까지의 활용사례는 빙산의 일각에 불과하다는 것이 업계의 중론이다. IT벤더들은 ‘빅데이터’와 ‘실시간’이라는 두 축을 모두 지원하기 위해 다양한 형태의 솔루션을 선보이며 시장을 공략하고 있다.

이러한 실시간 분석 솔루션은 공통적으로 빠른 색인(indexing)을 지원하며, 크게 컬럼형DBMS에서 파생된 유형과 로그처리시스템에서 발전된 유형으로 구분할 수 있다. 컬럼형DBMS에서 파생된 유형의 경우 DML(데이터조작언어) 가운데 수정(update)과 삭제(delete)를 지원하지 않는 대신 입력(insert)과 검색(select)을 위한 성능을 극대화시키는 등의 방식을 취한다. 로그처리시스템에서 발전된 유형의 경우 NoSQL DB처럼 스키마(schema)를 고정하지 않고 로(raw)데이터 자체를 실시간 인덱싱하고 향후 분석 대상을 재정의하는 스키마리스(schema-less) 형태로 저장한다.

이 같은 일률적인 기준으로 구분하기에는 적절치 못할 수 있으나, 컬럼형DBMS에서 파생된 솔루션으로는 ▲파스트림 ▲아이리스DB ▲인피니플럭스 등을 들 수 있고, 로그처리시스템에서 발전된 솔루션으로는 ▲스플렁크 ▲테라스트림 바스 ▲로그프레소 ▲D2 등을 꼽을 수 있다. IoT 시대의 실시간 빅데이터 분석 니즈를 고유의 방식으로 풀어가고 있는 이 솔루션들과 각사의 전략에 대해 알아본다.

 

   
 
모비젠의 IoT 빅데이터 DB 어플라이언스 ‘아이리스DB’

지난 2000년 설립된 모비젠은 창사 이래로 대규모 통신망 및 네트워크 관리, 대용량 데이터 및 트래픽 처리에 기술을 쌓아온 기술 주도형 벤처다. 장기간 누적된 대용량 데이터 처리 및 분석 능력을 기반으로 빅데이터 처리 솔루션 및 망수준의 관리운용 솔루션(품질관리, 장애관리, 보안관리)을 공급하고 있다.

회사의 주요 고객 가운데 이동통신사가 포함되는 모비젠은 통신망의 발전에 따라 빠르게 증가하는 데이터 트래픽을 분석하기 위해 필연적으로 대용량 빅데이터 시스템을 구축, 실제적인 통신망의 요구에 부응하기 위해 빅데이터 분석 솔루션을 개발하게 됐다. 경쟁이 치열한 이동통신사들의 데이터 분석 요구는 항상 시장을 선도하는 것으로, 이에 대응하는 솔루션을 만드는 것이 필요했다. 이에 따라 PB(페타바이트) 수준의 대규모 데이터를 준실시간으로 모니터링하기 위한 데이터 분석 플랫폼 ‘아이리스DB(IRIS DB)’를 선보였다.

어플라이언스 형태로 공급되는 ‘아이리스DB’는 겉보기에는 기존 OLAP 영역의 DBMS 제품들과 별반 다르지 않지만, 급속도로 발전하는 이동통신환경에서의 통신데이터 처리에 초점을 맞춰 개발돼 일일 100 TB(테라바이트)에 이르는 데이터를 분 단위로 처리 및 분석 가능한 것이 강점이다. 주로 네트워크 모니터링에 사용되며, 보안관제에 쓰이기도 한다.

   
▲ 모비젠 ‘아이리스DB’ 구조

‘아이리스DB’는 메모리와 디스크를 모두 활용하는 하이브리드 방식으로, 메모리를 마치 파일시스템처럼 쓸 수 있게끔 구현됐다. 메모리에 데이터를 우선적으로 저장하면서 시간이 지나면 디스크로 보내는 구조로, 100% 메모리상에서 처리된다. 특히 인서트 성능을 극대화하기 위해 PB 규모의 데이터도 1 GB(기가바이트) 단위로 나눠 저장되는 점이 특징이다. 이를 통해 실시간 색인을 지원, IT운영에 필수적인 장애 대응과 품질 관리에 적합하도록 설계됐다.

‘아이리스DB’는 분산 환경에서의 데이터 처리를 위한 SQL을 대부분 지원해 추가적인 교육을 필요로 하지 않고, 단기간에 비용효율적으로 구축 가능하다. 최근에는 ‘아파치 스파크’를 통합, 하둡을 사용하고 있는 기존 고객들에게 편의를 더했다. 실시간 SQL 성능과 함께 장기간의 SQL 및 배치성·대화형 SQL 성능까지 향상시켰고, 대규모 빅테이블에 대한 조인(JOIN) 연산을 포함한 모든 SQL 분석 작업이 가능해져 기존 단일 DBMS 기반 레거시(legacy) 시스템을 대규모 분산 병렬화하는 작업에도 활용할 수 있게 됐다.

향후 모비젠은 세계적으로 앞서있는 국내 통신망 환경에서의 경험을 바탕으로 글로벌 시장 공략에 박차를 가할 계획이며, 주요 타깃은 중국과 일본 등 아시아 시장이다. 아울러 고급분석(Advanced Analytics)에 대한 고객들의 니즈에 부응, 그간 SI(시스템통합) 성격으로 진행해오던 기계학습(머신러닝) 관련 요소를 더욱 발전시켜 솔루션 형태로 상용화하는 것을 목표로 하고 있다.

[인터뷰] “실시간성, 비용효율성, 사용편의성 고루 갖춰”

   
▲ 김형근 모비젠 연구소장

아이리스DB, 어디에 쓰이나.

모비젠은 머신데이터 분야에 초점을 맞추고 있으며, 높은 QoS(서비스품질)를 요구하는 곳의 실시간 데이터 관리에 최적화돼있다. 특히 높은 실시간성, 확실한 확장성, 풀 텍스트 검색, SQL 지원 등 국내 기업 환경에서 필요로 하는 핵심 요소들을 골고루 제공하고 비용효율적으로 구축할 수 있다는 것이 특장점이다. 대규모 머신데이터가 들어오는 곳 어디든 배치해 DB로 쓸 수 있고, 스토리지로도 쓸 수 있다.

‘아이리스DB’는 주로 통신망 관리, 보안관제 등에 사용된다. LTE망 품질관리, 대규모 보험사의 IT시스템 데이터 유출 모니터링 시스템 구축에 활용된다. 모든 패킷을 검사해 데이터 과금을 관리하는 이동통신사에서 ‘아이리스DB’를 활용, 기존 ‘오라클 엑사데이타’의 부하를 현저히 줄여준 사례도 있다. 향후 대량의 머신데이터가 빠르게 늘어날 것이라 예측되므로, ‘아이리스DB’와 같은 실시간 머신데이터 분석용 플랫폼을 찾는 수요는 더 많아질 것이다.


모비젠의 향후 계획은.

하둡으로 촉발된 빅데이터 기술이 아직 시장에서 완전히 안정화되지 않았다. 빅데이터 도입은 곧 하둡 도입으로 당연시했던 상황에서, 점차 고객들이 그 복잡도, 성능저하, 용량의 압박 등을 경험하고 있다. 고객사 중 국내 모 게임사의 경우 하둡에서 분산 빅데이터DB 도입으로 방향을 전환하려 하고 있다. 본격적인 빅데이터 분석 플랫폼 도입은 아직 시작되지 않았다고 볼 수 있다. 앞으로 하둡의 한계가 시장에 알려지면, 자연스럽게 솔루션형 빅데이터DB 시장이 열릴 것으로 기대하고 있다.

시간은 우리 편이라고 생각한다. 데이터의 증가와 실시간 분석의 요구는 필연적으로 빅데이터DB의 도입으로 귀결될 것으로 보인다. 주로 기존에 DW를 구축했던 곳의 DW 업그레이드 과제를 주 타깃으로 삼고 있다. DW의 용량확장, 백업·아카이빙 시 급증하는 비용을 ‘아이리스DB’가 효과적으로 해결해줄 수 있기 때문이다. 대규모 IT시스템 구축과제에서는 DBMS를 필수적인 부품처럼 도입하듯, 앞으로는 빅데이터DB도 거의 모든 프로젝트에서 도입하게 될 것이다. ‘아이리스DB’의 시장은 빠르게 넓어질 것으로 기대하고 있다.

 2015년 09월 01일(화) 03:29:36 팽동현 기자 dhppp@itdaily.kr

관련 URL : http://www.itdaily.kr/news/articleView.html?idxno=68224