티스토리 뷰

이제 빅데이터까지 언급하지 않더라도 데이터의 중요성에 대한 공감대는 확고하다. 한국 기업은 로그를 최소기간만 남기곤 했는데, 사물인터넷과 인공지능 시대를 맞으며[각주:1] 일단 로그를 만들어 저장해 두자는[각주:2] 곳도 많아진 듯한 느낌을 받았다. BI와 빅데이터 업무를 해오면서, 보유한 데이터가 별로 없거나 활용가치가 떨어지는데도 유용한 데이터가 많은 줄 아는 기업을 보고 허탈한 적이 몇 번 있었지만, 최근에는 너무 고민 없이 일단 데이터를 쌓아 두는 곳도 보여 걱정스럽다.

'업'에 대한 고민 없이 모바일 기기나 각종 센서로부터 raw data를 받아 중앙의 서버[각주:3]에 쌓는다고 할 때, 아무리 클라우드가 저렴하며 저장장치 값이 떨어졌다고 해도 비용 낭비일 뿐이다. 어지간한 대기업이 아닌 이상에는 raw data가 있다는 안도감에 데이터로부터 가치를 뽑는 일은 시급한 일에 밀릴 수 밖에 없기 때문이다. 더구나 raw data일수록 민감정보(ID 및 개인정보)를 담기 마련이라 도리어 데이터를 추출한 기업 조직 내에서 접근할 직원이 줄어든다. 어느 보안담당자가 민감정보를 아무나 접근하여 빼갈 수 있도록 두겠는가? 고민 없어 폐쇄적인 raw data 저장행위는 비효율, 비효과로 귀결하고 만다.


Why the internet of things needs people centric solutions - Gabi Zodik, IBM

위 장표에 나왔듯이 어느덧 스마트폰의 계산량과 데이터 저장량이 클라우드를 위시한 서버를 앞지르게 됐다. 모바일 기기와 센서[각주:4]에서 생성한 데이터를 중앙으로 받아오는 과정에서 분석관점에 따라 요약하는 등의 방식으로 가공하는 게 여러모로 좋다. 단순한 비식별화보다는 분석관점에 따른 요약[각주:5]이 적절하다. 데이터 용량과 네트워크 트래픽을 줄이면서[각주:6] 1차로 효율을 높인다.

2차로는, 개인정보[각주:7] 보호 관점에서 이러한 가공작업이 절실하다. 빅데이터 활용에 너그러운 미국과 한국의 상황은 매우[각주:8] 다르다. 한국은 징벌적 배상이 보편적이지 못하면서도, 규제와 감사를 통해 뭐든 안 된다고 말하는 정부기관이 정작 명확한 기준은 제시하지 않는 기묘한 구조이다. 민감정보가 쉽게 나타나는 형태로 저장했다가는 기업/조직 내 활용조차 힘들어 데이터를 저장하는 의미가 퇴색하곤 한다. 분석용도로 가공한 데이터 생성은 이러한 법적 리스크와 비효율을 피하게 해준다. 저장비용 절감보다는 이쪽의 효익이 더 크다.

가공작업은 스마트폰 자체나 센서 네트워크 허브[각주:9]에서 진행한다. 무슨 분석관점에서 어떤 데이터를 쳐낼지 결정하는 과정에서는 부단하며 빠른 실패가 불가피하다. 보통은 성과지표를 먼저 수립하여 분석관점을 정하고, 지표값을 도출하기 위해 데이터를 가공하는 편이다. 예를 들면, 홍길동이 2017년 8월 27일 15시 30분에 모 백화점에 진입했다는 이벤트는 ['c_cluster_235', 'Place_B', '1530'], ['gryffindor', 'dept', '201708']과 같이 필요한 형태의 정보로 가공하여 서버로 전송하는 식이다. 첫 번째는 고객그룹 235인 고객이 B라는 장소에 오후 3시 30분에 도착했다는 정보이고, 두 번째는 그리핀도르라는 고객그룹의 일원이 8월에 백화점에 방문했다는 정보이다.[각주:10] [각주:11] 이런 식이면 고객정보 활용 동의 절차도 유연하게 처리 가능하다.

물론 데이터에 관심이 적었다면, 데이터 가공기준을 잡지 못한다. 이제까지 이야기한 모든 게 그림의 떡이다. 개인정보 보호를 감안한 데이터 저장 및 활용이 궤도에 오르기에는 상당한 시행착오를 요하며, 사업을 지속하는 한 종점이 없는 일이지만 열매는 달콤할 거라 확신한다.

  1. '인공지능'에 비해 '4차산업혁명'은 너무 약팔이처럼 느껴지는 모양이라 언급하지 않겠다. [본문으로]
  2. 전시성? [본문으로]
  3. Data Warehouse, Data Lake, Data Hub 등 [본문으로]
  4. 민감정보가 없는 단순한 시계열 데이터는 raw data 저장이 적절하다. [본문으로]
  5. 범주 별 합계 및 각종 평균 등 [본문으로]
  6. 스마트폰 관점으로는 데이터 통신량과 백그라운드 작업을 줄이므로서 고객에게 나쁜 면으로 눈에 띄지 않는 효과가 있다. [본문으로]
  7. 민감정보 [본문으로]
  8. 빅데이터 시대에 한국에 사는 실무자로서 정체성 위협을 받을 정도로 스트레스인 수준 [본문으로]
  9. 라즈베리파이 정도? [본문으로]
  10. 백화점은 마트나 편의점보다는 방문빈도가 뜸하므로 분석관점에 따라 연월일시분초 수준 상세는 무의미할 수 있다. [본문으로]
  11. 가공기준이 rule로 가능하다면 해당 rule이 스마트폰 앱이나 센서 네트워크 허브에서 동작하거나, 이벤트 주체가 속한 그룹이 무엇인지 실시간으로 서버에 질의해도 좋다. [본문으로]
저작자 표시 동일 조건 변경 허락
신고
댓글
댓글쓰기 폼