4차 산업혁명과 인공지능의 역할
데이터 라벨링은 4차 산업혁명의 기반인 인공지능을 지능화하는데 필연적인 과정이라 생각한다. 데이터 라벨링이 왜 필요하며 어떻게해야 하는지 방법론적인 관점에서 참고되는 내용을 소개하려고 합니다.
오늘 날을 4차 산업혁명 시대라고 합니다. 4차 산업혁명은 컴퓨터의 탄생과 발전으로 이룩할 수 있는 산업의 발전형태라 할 수 있습니다. 컴퓨터를 적용하는 산업에 미래 과학의 목표가 자동화라는 영역이며, 자동화를 위해서는 인간의 역할을 할 수 있도록 지능화를 실현하는 과학의 핵심 기술 분야가 인공지능이며, 인공지능을 발전시키기 위해서 수준에 도달할 때 까지 학습을 시켜야 하는데, 그 학습에 기초 데이터를 만드는 필수 과정이 데이터 라벨링 과정인 것이다.
이해를 돕기위해서 4차 산업혁명과 인공지능에 관한 사전적인 의미를 설명하도록 합니다.
1. 제4차 산업혁명은 기술이 사회와 심지어 인간의 신체에도 내장되는 새로운 방식을 대표하는 디지털 혁명 위에 구축되고 있다. 제4차 산업혁명은 로봇 공학, 인공 지능, 나노 기술, 양자 프로그래밍, 생명 공학, IoT, 3D 인쇄 및 자율주행 차량을 비롯한 여러 분야에서 새로운 기술 혁신이 나타나고 있다. 제4차 산업혁명은 연결, 탈중앙화/분권, 공유/개방을 통한 맞춤 시대의 지능화 세계를 지향한다. 이 지능화 세계를 구축하기 위해 빅데이터, 인공지능, 블록체인 등의 여러 가지 기술들이 동원된다. 맞춤 시대의 지능화를 위해 현실 세계의 모든 내용을 가상세계로 연결한 다음, 가상세계에서 분석을 통해 예측과 맞춤을 예상하고 이를 현실 세계에 적용하면 된다.
2. 인공지능(人工智能) 또는 AI(영어: artificial intelligence, AI)는 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현하려는 컴퓨터 과학의 세부분야 중 하나이다. 정보공학 분야에 있어 하나의 인프라 기술이기도 하다. 인간을 포함한 동물이 갖고 있는 지능 즉, natural intelligence와는 다른 개념이다. 지능을 갖고 있는 기능을 갖춘 컴퓨터 시스템이며, 인간의 지능을 기계 등에 인공적으로 시연(구현)한 것이다. 일반적으로 범용 컴퓨터에 적용한다고 가정한다. 이 용어는 또한 그와 같은 지능을 만들 수 있는 방법론이나 실현 가능성 등을 연구하는 과학 기술 분야를 지칭하기도 한다.
3. 인공지능이 유독 어렵게 느껴지는 이유는 일반적으로 지능은 ‘외부를 인식하고 추론하며 적응하는 능력’으로 정의된다. 하지만 인간조차 그런 기능이 어떻게 발현되는지 모르는 상태에서 전통적 방법으로 지능을 만드는 건 결코 쉽지 않다. 일반적으로 인간에게 “어렵다”고 여겨지는 행위, 이를테면 “큰 수를 곱하거나 미적분 하기”, “체스나 바둑 두기”, “금융 시장에서 투자 결정 내리기” 등은 컴퓨터로 비교적 쉽게 처리할 수 있다. 반면, “사진 보고 개인지 고양이인지 구별하기”, “동화책 읽고 그 내용 이해하기” 등 인간이 쉽게 해내는 행위를 컴퓨터로 구현해내긴 어렵다. 이 같은 현상을 ‘모라벡의 역설’이라고 한다.
4, 전문가 시스템과 신경망, 딥러닝(deep learning)에 이르기까지 실로 다양한 방법을 시도했다. 혹자는 인공지능을 “어떤 문제도 해결할 수 있는 마법의 열쇠”로 여긴다. 하지만 인공지능으로 성공을 거두려면 풀고자 하는 문제를 잘 이해하고 정형화하는 노력이 선행돼야 한다. 인공지능을 ‘막연한 미래 기술’이 아니라 ‘4차 산업혁명 시대를 선도하는 실질적 기술’로 활용하려면 어떻게 해야 할까? 실제 문제를 해결하려면 완성된 인공지능 기술 하나를 사용하기보다 최선의 기술을 둘 이상 모아 일종의 ‘솔루션 아키텍처(solution architecture)’를 만들어야 한다.
5. 결론적으로 인공지능을 4차 산업분야에 서비스를 하려면 실시간서비스(API)를 개발해야 한다. 개발에 필요한 업무를 보면
첫째, 4차 산업분야인 IoT, Mobile, M2M을 통한 이미지, 영상, 텍스트 등의 데이터를 획득해야한다.
둘째, 데이터 가공 즉 전처리를 수행해야 한다. 이 과정이 데이터 라벨링이다. 획득된 데이터를 구분하고,
선별하며 포맷을 변경, 결합, 변형 등의 과정을 거쳐 컴퓨터가 읽어 들일 수 형태로 가공하는 것이다.
셋째, 모델생성 단계이다. 인공지능의 모델생성과정에서는 모델개발하고 데이터를 입력하여 데이터에 의한 학습을
시키면서 모델을 수정한다.
인공지능 서비스를 위해서 앞에서 말한 세가지 경우가 무한한 반복을 함으로 생성된 모델은 학습과정을 걸처서 발전하게 되었다.
인공지능은 1980년대부터 전문가들의 지식을 입력하고 규칙을 만들어 동작하는 전문가 시스템을 사용하였으며, 2000년대에는 하드웨어의 기술이 혁신적으로 발전함으로 빅데이터 및 데이터 처리기술이 확산되었다. 인공지능이 진화함으로 현재 인공지능 기술은 머신러링과 답러링 단계에 있다.
4차 산업혁명에 의한 인공지능의 발전의 핵심 요소는 획득된 데이터를 가공하여 생성된 데이터를 이용하여 모델의 무한한 학습을 지원하는 필수적인 요소가 데이터 라벨링이다.