티스토리 뷰

 기업이 RDB나 log의 형태로 저장하는 각종 정형 데이터[각주:1]는 처음부터 하둡에 옮길 필요 없이 각 데이터 소스에서 모델에 대한 가설을 검증한 후에 하둡으로의 적재를 생각해도 늦지 않습니다. 검증 작업은 데이터에 해박한 사내/사외 전문가가 SAP Lumira, Cognos Insight과 같은 현업 사용자를 감안한 분석도구 아니면 엑셀[각주:2]을 써서 수행하면 충분합니다.


 일일이 IT 부서에 의뢰해서 데이터 소스를 파악하고자 하면, 절차의 번잡함으로 인해 기존의 분석 틀을 벗어나지 못할 것이므로, 기업의 데이터를 무조건적으로 하둡에 '전부' 복사해 놔야 혁신을 이끌어낼 만한 분석이 가능하다고 보는 의견도 있기는 합니다. 이런 걸 해낼 비용의 조달은 일단 둘째 치고[각주:3], 어찌 어찌 실제로 만들어 놨다 치더라도 저 데이터 덩어리들을 무슨 수로 분석하겠다는 건지 저는 잘 모르겠습니다.


 데이터들을 하나의 저장소에서 보는 효과 정도만 필요하다면, 굳이 하둡에 적재할 필요 없이 기존에 보유한 BI 솔루션[각주:4]을 활용해도 됩니다. 예를 들어, SAP Business Objects의 BI 솔루션은 Universe라는 이름으로 일종의 View 같은 개념을 제공합니다. RDB, OLAP Cube 등의 데이터 소스를 추출하지 않고 DB의 View처럼 바라보는 형태로서, 구현하는 입장에서는 부담이 매우 적습니다. 여러 가지 시도를 하기가 편하죠. 사용자는 분석도구를 통해 이 데이터 저장소에 접근하면 됩니다. 분석도구가 제공하는 lookup이나 merge 류의 기능을 통해 Universe 간 데이터를 연관 짓기도 편합니다. 하둡부터 생각할 필요는 전혀 없습니다.


 Business Intelligence의 바톤을 받은 빅 데이터의 유행이 당분간 계속 될 모양인데요. 근간은 크게 변하지 않았다고 봅니다. 혁신적이라면 데이터의 요약본이 아닌 전체를 놓고 분석을 할 수 있다는 점과 데이터의 소스가 추가되었다는 점이겠지요. 이런 혁신은 오히려 기존의 분석역량이 더욱 빛을 발할 수 있게 해주는 효과를 낳습니다. BI를 건너 뛴 빅 데이터로는 될 일이 없어요.[각주:5] 어디서든 무엇에든 기본은 정말 중요합니다.

 

  1. 그룹웨어 게시판, (사내) 메신저/SNS, 파일 서버/EDMS의 비정형 데이터도 활용 가능하지만 쉽지는 않으니 이 글에서는 논외로 하겠습니다. [본문으로]
  2. Power Pivot이나 Power Query는 옵션 [본문으로]
  3. 데이터의 갱신을 감안한 ETL은 쉽게 구현하기 힘듭니다. [본문으로]
  4. 하둡을 고려할 정도라면 가지고 있을 거라 봅니다. [본문으로]
  5. 하둡 가지고 대체 뭘 하게요? [본문으로]
저작자 표시 동일 조건 변경 허락
신고
댓글
댓글쓰기 폼