데이터 프레임이 클 경우 전체 데이터를 불러 오지 않고도 간단하게 살펴볼 수 있어야 한다. 파이썬 라이브러리 pandas로 데이터 프레임을 탐색하는 방법에 대해 정리했다.
df.head()
.head()
메서드는 DataFrame의 처음 5 행을 제공한다. 더 많은 행을 보려면 인자로 n을 넣어주면 된다. (예를 들어 df.head(10)
은 처음 10개 행을 표시한다.)
df.tail()
반대로 맨 마지막 5행을 보려면 .tail()
메서드를 사용하면 된다. 마찬가지로 더 많은 행을 보려면 n을 넣어주면 된다. (예를 들어 df.tail(10)
은 마지막 10개 행을 표시한다.)
df.info()
df.info()
메서드는 각 열에 대한 몇 가지 정보들을 제공한다.
코드를 찍어보면 아래와 같은 결과를 확인할 수 있다.
<class 'pandas.core.frame.DataFrame'> RangeIndex: 220 entries, 0 to 219 Data columns (total 5 columns): id 220 non-null int64 name 220 non-null object genre 220 non-null object year 220 non-null int64 imdb_rating 220 non-null float64 dtypes: float64(1), int64(2), object(2) memory usage: 8.7+ KB None
df.info()를 사용하면 데이터 프레임에 들어있는 각 열의 자료형과 메모리를 얼마나 사용하고 있는지 보여준다.
첫 번째 행은 데이터 프레임의 자료형을 보여준다.
<class 'pandas.core.frame.DataFrame'>
이어서 그 데이터 프레임에 총 몇 개의 행이 있는지 인덱스와 함께 보여준다.
RangeIndex: 220 entries, 0 to 219
그 뒤로는 각 열의 이름, 행 수, null 값이 있는지/없는지, 자료형은 무엇인지 각각 보여준다. (예제를 보면 id라는 열에 총 220개 행이 있고, null값은 없으며, 자료형은 int64라는 것을 알 수 있다.)
id 220 non-null int64
이어서 각 자료형마다 몇개의 열이 있는지 보여준다.
dtypes: float64(1), int64(2), object(2)
마지막으로 이 데이터 프레임의 메모리 사용량을 보여준다.
memory usage: 8.7+ KB