본문 바로가기
Machine Learning

머신러닝의 기본 개념

by AlbertIm 2024. 7. 24.

머신러닝이란?(Machine Learning)

From Wikipedia
머신러닝(ML)은 데이터를 학습하고 보이지 않는 데이터를 표준화하여 명시적인 명령어 없이 작업을 수행할 수 있는 통계적 알고리즘의 개발 및 연구와 관련된 인공 지능 연구 분야입니다.

머신러닝은 통계적 기법으로 데이터를 분석하여 패턴규칙을 학습하고 이로 기반으로 새로운 데이터에 대한 예측이나 분류할 수 있는 기술입니다.

  • 예측(Prediction): 새로운 데이터를 기반으로 결과를 추출합니다.

머신러닝의 주요 프로세스

  1. 데이터 수집: 필요한 데이터를 수집합니다.
  2. 데이터 전처리: 데이터를 분석할 수 있는 형태로 처리합니다.
  3. 모델 선택: 해당 데이터 분석에 가장 적합한 모델을 선택합니다.
    • 머신러닝 모델: 특정 데이터셋에 대해 훈련된 후 새로운 데이터에 대한 예측 또는 분류를 수행하는 데 사용할 수 있는 수학적 모델 유형입니다.
    • 데이터셋: 모델을 학습시키기 위해 사용하는 입력 데이터출력 데이터로 구성한 데이터의 모음입니다.
  4. 모델 훈련: 데이터를 사용하여 모델을 학습시킵니다.
  5. 모델 평가: 테스트 데이터를 사용하여 모델을 평가합니다.
  6. 모델 개선: 필요한 경우 모델을 튜닝하고 개선합니다.
  7. 배포 및 예측: 모델을 배포하고 예측을 수행합니다.

주요 접근 방법

지도 학습 (Supervised Learning)

지도 학습 알고리즘은 입력 데이터와 해당 데이터에 대한 정답(출력) 을 포함한 데이터 집합을 사용하여 수학적 모델을 구축합니다.

유형

  • 능동 학습 (Active learning): 사용자가 대화형으로 데이터에 레이블을 지정하여 모델의 학습에 활용하는 방식입니다. 모델이 예측하기 어려운 데이터 포인트를 선택하여 추가로 레이블을 붙임으로써 학습 효율성을 높이고 성능을 개선할 수 있습니다.
  • 분류 (classificaiton): 입력 데이터가 사전에 정의된 클래스에 맞게 분류하는 알고리즘입니다.
    • 이진 분류 (Binary Classification): 데이터 포인트를 두 개의 클래스 중 하나로 분류합니다.
    • 다중 분류 (Multiclass Classification) : 데이터 포인트를 섹 개 이상의 클래스 중 하나로 분류합니다.
    • 평가 기법:
      • 정확도 (Accurancy) : 전체 데이터 중에서 올바르게 분류된 데이터 포인트의 비율입니다.
      • 정밀도 (Precision) : 모델이 긍정적으로 예측한 데이터 중 실제로 긍정인 비율입니다.
        • 정밀도 = True Positive / True Positive + False Positive
      • 재현율 (Recall) : 실제 긍정 데이터 중에서 모델이 긍정적으로 예측한 비율입니다.
        • 재현율 = True Positive / True Positive + False Negative
      • F1 점수 (F1 Score) : 정밀도와 재현율의 조화 평군으로 두 측정값의 균형 비율입니다.
        • F1 Score = 2 * (정밀도 * 재현율)/(정밀도 + 재현율)
  • 회귀 (regression): 종속 변수와 하나 이상의 독립 변수 간의 관계를 추정하여 연속적인 값을 예측하는 지도 학습 알고리즘입니다.

비지도 학습 (Unsupervised Learning)

비지도 학습 알고리즘은 레이블이 없거나 분류되지 않은 데이터를 분석하여 데이터의 숨겨진 구조, 패턴, 또는 규칙을 찾는 방법입니다. 이 과정에서는 주어진 데이터에 대해 사전 정의된 정답이 없기 때문에 모델은 데이터 자체의 특성에 가반하여 의미 있는 정보를 추출합니다.

유형

  • 클러스터링 (Clustering): 데이터 포인트를 유사성에 따라 그룹으로 나누는 방법입니다. 예를 들어 고객의 구매 행동을 기반으로 유사한 고객 그룹을 식별하는데 사용할 수 있습니다.
  • 자원 축소 (dimensionality reduction): 데이터의 차원을 줄여서 중요한 정보는 유지하면서 데이터의 복잡성을 감소시키는 방법입니다.예를 들어 고차원 데이터에서 주요 특성만을 추출하여 2D 또는 3D로 시각화할 때 사용할 수 있습니다.
  • 밀도 추정 (density estimation): 데이터의 확률 분포를 추정하여 데이터가 특정 영역에서 얼마나 밀지해 있는지를 파악하는 방법입니다. 예를 들어 특정 지역의 인구 밀도를 추정하는데 사용할 수 있습니다.

강화 학습 (Renforcement Learning)

강화 학습은 소프트웨어 에이전트환경상호작용하면서 누적 보상을 최대화하는 방법입니다. 예를 들어 에이전트가 체스 게임에서 이기기 위한 최적의 수를 예측하는데 사용할 수 있습니다.

마무리

오늘은 머신러닝의 기초 개념을 정리했습니다. 다룬 내용은 머신러닝의 일부에 불가하며 앞으로 배울 것이 많습니다. 이 개념들을 확실히 이해하기 위해 실습을 통해 직접 익히고자 합니다.

참고

'Machine Learning' 카테고리의 다른 글

scikit-learn의 Getting Started 따라하기  (0) 2024.07.25

댓글