로컬컨텐츠팀은 장소에 관한 정보를 업데이트하거나 정확도를 높이는 일을 하고 있다. 시시각각 변하는 위치 정보를 제대로 파악하기 위해 시스템을 개발하는 것은 물론 머신러닝을 통해 불확실한 정보를 필터링하는 일, 사람의 손을 거치지 않고 자동 수정 보완하는 시스템을 만드는 것까지, 로컬컨텐츠팀은 많은 것들을 완벽하게 해내고자 하는 목표를 가지고 있다. 로컬컨텐츠팀이 효율적이고 정교한 위치 정보 시스템을 구축하면서 확보한 노하우와 450여 만 개의 POI데이터에 대해 함께 알아보자.
지구상에 있는 특정 지점(Point)에 좌표를 부여하면 2차원 숫자 데이터로 간편하게 주소를 등록할 수 있습니다. 이렇게 정해진 좌표에 인간이 해석할 수 있는 데이터를 덧붙이면 위치 정보가 만들어집니다. 요즘 사용하는 지도 서비스는 위치 정보를 그림으로 그리고 그 위에 표식을 얹어서 필요에 맞게 활용하도록 만든 데이터 덩어리에 가깝습니다. 옛날 아버지들이 자동차 뒷좌석에 한 권씩 가지고 다니던 지도책이 이제는 데이터, 즉 디지털 정보로 바뀌었고 웹이나 앱에서 그 정보를 확인할 수 있는 시대가 되었습니다. 이제 고객은 중간에 목적지가 바뀌어도 복잡한 작업 없이 빠르게 경로를 수정해서 이동할 수 있게 되었습니다. T맵 역시 새로운 장소가 생기거나 폐업으로 본래 있던 곳이 사라져도 고객이 불편을 겪지 않도록 좌표와 관련 정보를 수집해서 앱에 신속하게 반영하고 있습니다.
로컬컨텐츠팀이 위치 정보를 수집하는 방법은 크게 세 가지로 나눌 수 있습니다. 첫 번째로 전국에 실차 차량을 파견하여 이미지와 정보를 수집하는 방법입니다. 이를 통해 도로 상황을 체크하고 변화를 확인하며 전에 없던 장소가 새롭게 생기면 업데이트하고 있습니다. 두 번째 방법은 제휴 업체나 공공기관으로부터 공개 받은 정보를 세심하게 살피는 것입니다. 그중 폐업, 이전, 변경과 같은 정보를 발견하면 즉시 데이터를 수정합니다. 마지막 방법은 고객으로부터 직접 제보를 받는 것입니다. 요약한다면 직접 수집하거나 자료를 모으고 고객의 제보에 귀를 기울이며 위치 정보를 수집한다고 볼 수 있습니다. 기업이나 공공기관이 제공하는 데이터라 할지라도 '그 순간 그곳에 있는 사람'보다 거리의 변화를 정확하게 알 수 없습니다. 자동으로 수집되는 건물의 완공일이나 개업일, 이전 날짜 등의 정보는 여러 힌트 중 하나일 뿐입니다.
고객의 제보는 가장 따끈따끈한 최신 정보입니다. 수집된 여러 가지 힌트들과 고객의 제보는 가장 확실한 위치 정보를 만들어 내는 역할을 합니다. T맵은 하루 평균 1,000여 건의 제보를 처리하고 있습니다. 접수된 내용은 인터넷이나 전화 확인 절차를 거치고 위성지도 등을 통해 정확한 좌표 정보를 찾아 정식으로 등록하게 됩니다. 모든 내용을 하나하나 확인하기 때문에 시간은 걸리지만 고객의 제보는 반드시 등록하고 있습니다.
장소는 하나지만 그 장소를 부르는 이름은 사람 마음이라는 걸 종종 실감합니다. 하나의 장소에도 그에 해당하는 정보는 상상 이상으로 다양하기 때문입니다. 업주가 사용하는 가게 이름과 고객이 현실에서 마주하는 간판에 적힌 상호가 다른 경우는 아주 흔합니다. 카드 결제 후 받은 영수증에 찍혀 있는 업소 이름이 간판과 달랐던 경험도 다들 한 번쯤 겪어 보신 적이 있을 것입니다. 여기에 주소를 줄여서 부르거나 도로명 주소와 지번 주소를 혼용하기 또는 이제는 없어졌거나 합쳐진 예전 주소 사용, 전화번호 오류, 외래어 표기 오류, 마지막으로 이 모든 변수에 공통으로 나타나는 오타 현상까지. 장소에 관한 정보는 처음 생겨날 때부터 최종적으로 소비될 때까지 어느 지점에서든 반드시 사람의 손을 한 번 이상 거치게 됩니다. 그에 따른 데이터의 오염과 변질은 로컬컨텐츠팀에게 아주 익숙한 것들입니다. 한 가지 예를 들어보겠습니다.
모두 같은 장소이지만 여러 경로를 통해 수집된 이름은 위 사례와 같이 다양합니다. 여기서 무엇을 선택해야 할까요? 완벽한 정답은 없습니다. 그나마 정답과 가까워지려면 '지금 바로 그곳에서 불리는 이름'을 찾아야 합니다. 원섭복덕방이었던 곳이 요즘은 공인중개사원섭으로 통한다면 그에 따라 장소 정보도 변해야 합니다. 간판에는 여전히 원섭복덕방이라 적혀 있다면 동의어로 등록합니다. 마지막으로 다양한 정보가 사실은 한 곳을 가리킨다는 사실을 밝혀야 합니다. 머신러닝을 통해 여러 텍스트 정보와 좌표 간 거리 등을 모아 군집화하고 군집화된 데이터 덩어리를 하나의 정보로 확정하는 시스템이 갖춰져야 데이터에서 파생된 변수를 처리할 수 있습니다. 언뜻 간단해 보이는 과정이지만 대한민국에 존재하는 모든 업종에 이를 적용하는 것은 쉬운 일이 아닙니다. 데이터를 공부하고 정리해 온 T맵의 노하우와 기술력이 바로 여기서 드러납니다.
* 그림: 로컬컨텐츠팀 백규진님