데이터의 분포를 확인할 때 여러가지 시각화 방법을 활용하는데, 내가 가장 좋아하는 건 바이올린 플롯(violin plot)이다. 파이썬 라이브러리 seaborn을 활용하여 바이올린 플롯 그리는 방법을 정리했다.
바이올린 플롯 해석 방법
바이올린 플롯은 이렇게 데이터 세트의 분포를 시각화 해준다.

이 그림이 대충 그린 것처럼 보이지만 사실 나름의 디테일한 해석 방법이 있다.
- 중심선을 따라 대칭인 KDE 플롯이 있다. (KDE 플롯은 이전 포스팅 참고)
- 가운데 흰색 점은 중앙값(median)을 나타낸다.
- 바이올린 중앙의 두꺼운 선은 사분위 범위를 나타낸다.
- 바이올린 중앙의 얇은 선은 신뢰 구간을 나타낸다. (bar plot과 마찬가지로 95% 신뢰 구간이 표시된다.)
결국 바이올린 플롯은 KDE 플롯과 Box 플롯을 하나로 합쳐놓은 형태라고 생각하면 된다…!
seaborn으로 바이올린 플롯(violon plot) 그리기
이렇게만 해주면 끝이다.
sns.violinplot(data=df, x="label", y="value") plt.show()

매번 느끼는 거지만 seaborn 정말 단순해서 편하다.
앞으로 데이터의 분포를 보고 싶다면
일단 seaborn으로 violon plot을 그려보자.