머신러닝(ML) 종류와 방법?
1. 개요
머신러링은 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습 (Reinforcement Learning)으로 분류할 수 있다. 머신러닝은 다양한 인공지능 알고리즘에 서 예측과 회귀에 광범위하게 사용되고 있다. 머신러링의 종류와 방법에 관하여 알아보겠습니다.
2. 지도학습(Supervised Learning)
지도학습(Supervised Learning)은 문제와 정답을 알려주고 학습하는 방법으로 분류와 회귀에 사용된다. 데이터의 상관관계를 평가하기 위해 레이블이 지정되고 정의된 훈련 데이터의 알고리즘을 제공합니다. 샘플데이터는 알고리즘에 입력과 출력을 모두 지정하여 사용합니다. 예를들어, 손으로 쓴 그림의 이미지에는 해당숫자를 나타내는 주석이 달려 있습니다. 지도 학습 시스템은 충분한 예가 주어지면 각 숫자와 관련된 픽셀 및 셰이프의 클러스터를 인식할 수 있습니다. 결국 손으로 쓴 숫자를 인식하여 숫자 9와 4 또는 6과 8을 확실하게 구별합니다.
2.1. 지도 학습의 장점
단순성과 설계의 용이성입니다. 이는 가능한 제한된 결과 집합을 예측하거나, 데이터를 범주로 나누거나, 다른 두 기계 학습 알고리즘의 결과를 결합할 때 유용합니다. 그러나 레이블이 지정되지 않은 수백만 개의 데이터 집합에 레이블을 지정하는 것은 어렵습니다. 이에 대해 더 자세히 살펴보겠습니다.
2.2. 데이터 레이블 지정이란 무엇인가요?
데이터 레이블 지정은 다른 언어로 “데이터 라벨링”이라고도 하며 “입력 데이터를 해당하는 정의된 출력 값으로 분류”하는 프로세스입니다. 지도 학습에는 레이블이 지정된 훈련 데이터가 필요합니다. 예를 들어 수백만 개의 사과 및 바나나 이미지에 "사과" 또는 "바나나"라는 단어를 태그로 지정해야 합니다. 그런 다음 기계 학습 애플리케이션은 이 훈련 데이터를 사용하여 과일 이미지가 주어졌을 때 과일 이름을 추측할 수 있습니다. 그러나 수백만 개의 새로운 데이터에 레이블을 지정하는 것은 시간이 많이 걸리고 어려운 태스크가 될 수 있습니다. Amazon Mechanical Turk와 같은 크라우드 워킹 서비스는 지도 학습 알고리즘의 이러한 한계를 어느 정도 극복할 수 있도록 되어 있습니다. 이러한 서비스는 전 세계에 분산되어 있는 대규모의 저렴한 노동력 풀에 대한 액세스를 제공하여 데이터 수집을 쉽게 만듭니다.
3. 비지도학습(Unsupervised Learning)
비지도학습(Unsupervised Learning)은 정답을 가르처 주지 않고 학습하는 방법으로 연관 규칙과 군집 알고리즘에 많이 사용한다. 비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터에 대해 훈련하며, 입력과 미리 결정된 출력 사이에 의미 있는 연결을 설정하기 위해 새로운 데이터를 검색합니다. 이 알고리즘은 패턴을 발견하고 데이터를 분류할 수 있습니다. 예를 들어 비지도 알고리즘은 다양한 뉴스 사이트의 뉴스 기사를 스포츠, 범죄 등의 일반적인 범주로 그룹화할 수 있습니다. 비지도 알고리즘은 자연어 처리를 사용하여 기사의 의미와 감정을 파악할 수 있습니다. 소매에서 비지도 학습은 고객 구매 패턴을 찾고 다음과 같은 데이터 분석 결과를 제공할 수 있습니다. 고객은 버터도 구매하는 경우 빵을 구매할 가능성이 가장 큽니다.
비지도학습은 패턴 인식, 이상 감지, 범주로 데이터 자동 그룹화에 유용합니다. 훈련데이터에 레이블 지정이 필요하지 않으므로 설정이 쉽습니다. 추가 모델링을 위해 자동으로 데이터를 정리하고 처리하는데 이러한 알고리즘을 사용할 수도 있습니다. 이 방법의 한계는 정확한 예측을 할 수 없다는 것입니다. 또한 특정 유형의 데이터 결과를 독립적으로 골라낼 수 없습니다.
4. 강화학습(Reinforcement Learning)
강화학습(Reinforcement Learning)은 알고리즘이 거쳐야 하는 여러 단계에 보상 값이 연결된 방법입니다. 따라서 모델의 목표는 가능한 한 많은 보상 포인트를 축적하여 최종 목표에 도달하는 것입니다. 지난 10년 동안 강화 학습이 실제로 적용된 영역은 대부분 비디오 게임이었습니다. 최첨단 강화 학습 알고리즘은 고전 및 현대 비디오 게임에서 인상적인 결과를 얻었으며 실제 경기를 크게 능가하는 경우가 많습니다.
이 방법은 불확실하고 복잡한 데이터 환경에서 가장 잘 작동하지만 비즈니스 상황에서는 거의 실행되지 않습니다. 잘 정의된 태스크에는 효율적이지 않으며 개발자 편향이 결과에 영향을 줄 수 있습니다. 데이터 사이언티스트가 보상을 설계할 때 강화 학습 알고리즘이 결과에 영향을 미칠 수 있습니다.
5. 결론
인공지능이 학습을 위해서는 많은 양의 데이터가 필요하며, 학습에 필요한 데이터를 전처리하여 제공해 주어야 한다. 이러한 데이터는 학습을 위한 훈련데이터와 학습결과를 평가하기 위한 평가데이터로 분류하여 사용하며 데이터의 사용 비율은 86:14로 훈련데이터가 많아야 한다.