머신러닝 오버피팅의 개념과 해결 방법 (feat. 기울어진 운동장)
본 포스팅에서는 머신러닝에서 나타나는 overfitting(과적합)의 문제를 최대한 쉽게 설명하고, 이를 해결하기 위한 접근 방법 및 전략을 소개한다.
본 포스팅에서는 머신러닝에서 나타나는 overfitting(과적합)의 문제를 최대한 쉽게 설명하고, 이를 해결하기 위한 접근 방법 및 전략을 소개한다.
분류를 수행할 수 있는 기계 학습 알고리즘을 만들고 나면, 그 분류기의 예측력을 검증/평가 해봐야 한다. 본 포스팅에서는 분류 모델의 성능을 평가할 수 있는 지표 Accuracy, Recall, Precision, F1 Score에 대해 소개하고자 한다.
K-최근접 이웃(K-Nearest Neighbor)알고리즘은 분류 뿐만 아니라 회귀에도 사용할 수 있다. scikit-learn을 통해 K-최근접 이웃 (K-Nearest Neighbor) 알고리즘을 사용해 수치를 예측하는 회귀 모델을 파이썬 코드로 작성해봤다.
본 포스팅에서는 파이썬 라이브러리 scikit-learn을 통해 K-최근접 이웃 (K-Nearest Neighbor) 알고리즘을 사용한 분류를 직접 수행하는 예제를 소개한다. 누구나 쉽게 따라할 수 있는 수준으로 작성했다.
본 포스팅에서는 머신러닝에서 사용할 K-최근접 이웃(K-Nearest Neighbor)에 대한 개념 설명을 최대한 쉽게 설명한다. 정규화(normalization), k개수에 따른 과적합(overfitting), 과소적합(underfitting)에 대한 개념도 함께 소개한다.
데이터 정규화는 머신러닝에서 꼭 알아야 하는 개념이다. 매우 훌륭한 데이터를 가지고도 정규화를 놓치면 특정 feature가 다른 feature들을 완전히 지배할 수 있기 때문이다. 최소 최대 정규화, Z-점수 정규화를 통해 문제를 해결하자.
본 포스팅에서는 두 점 사이의 거리를 구하는 방법 3가지 소개한다. 유클리드 거리(Euclidean Distance), 맨하탄 거리(Manhattan Distance), 해밍 거리(Hamming Distance).