안녕하세요 모비젠 블로그를 방문해 주신 여러분!!

 

오늘날 많은 부분에서 AI 를 이용한 기술이 각광 받고 있습니다.

 

사람 대신 바둑을 두는 인공지능, 사람처럼 운전하는 자율운전, 심지어는 의사를 대신에 진료를 해주는 인공지능도 개발되고 있습니다.

 

하지만 방대한 데이터를 필요로 하는 인공지능 분야에서 양질의 데이터는 필수 불가결한 요소이며, 데이터의 품질 또한 매우 중요한 요소로 자리 잡게 되었습니다.

 

데이터의 품질은 단순히 데이터의 유무로만 해결되는 것이 아닌 데이터 전체를 봤을때 필수데이터의 누락, 유일한 데이터의 누락 등 다양한 요소로 판단해야 하며 이는 사람의 개입이 필수적이며 이 부분은 경험적인 요소가 다분히 개입되어야 합니다.

 

모비젠에서는 데이터 전체를 검사후 해당 데이터가 어떤 특징을 가지고 있는지 파악하고, 그 근거를 바탕으로 수학적 통계에 따른 데이터를 분석하는 연구를 진행하고 있습니다.

 

이렇게 파악된 특징을 바탕으로 사용자의 확인을 거쳐 데이터를 보정후 다시 데이터의 품질을 검증함으로서 많은 시간이 할애되는 전처리 과정을 시각화, 패턴화 하는 방법을 연구중에 있습니다.

 

[그림] 데이터 프로파일링을 통한 데이터 품질 지표 측정

 

특히 이 연구는 데이터 품질을 검사할때 단순 데이터 자체만 보는것이 아니라, 데이터의 범위와 분포를 확인함으로서 이를 통해 이루어지는 데이터 학습의 기초 자료로 활용될뿐 아니라 데이터를 시각적으로 분석할수 있는 도구를 만드는데 집중하고 있습니다.

 

또한, 이 연구는 모비젠의 IRIS 빅데이터 플랫폼과 공공연구기관인 한국 전자 기술연구원(KETI) 의 서버리스 플랫폼인 OpenFX 플랫폼을 활용함으로서 범용성을 가지며 추후 사용자에 의해 기능이 개선될 수 있도록 하고 있습니다.