[pandas] 데이터프레임 탐색하기

데이터 프레임이 클 경우 전체 데이터를 불러 오지 않고도 간단하게 살펴볼 수 있어야 한다. 파이썬 라이브러리 pandas로 데이터 프레임을 탐색하는 방법에 대해 정리했다.

df.head()

.head() 메서드는 DataFrame의 처음 5 행을 제공한다. 더 많은 행을 보려면 인자로 n을 넣어주면 된다. (예를 들어 df.head(10)은 처음 10개 행을 표시한다.)

df.tail()

반대로 맨 마지막 5행을 보려면 .tail() 메서드를 사용하면 된다. 마찬가지로 더 많은 행을 보려면 n을 넣어주면 된다. (예를 들어 df.tail(10)은 마지막 10개 행을 표시한다.)

df.info()

df.info() 메서드는 각 열에 대한 몇 가지 정보들을 제공한다.

코드를 찍어보면 아래와 같은 결과를 확인할 수 있다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 220 entries, 0 to 219
Data columns (total 5 columns):
id             220 non-null int64
name           220 non-null object
genre          220 non-null object
year           220 non-null int64
imdb_rating    220 non-null float64
dtypes: float64(1), int64(2), object(2)
memory usage: 8.7+ KB
None

df.info()를 사용하면 데이터 프레임에 들어있는 각 열의 자료형과 메모리를 얼마나 사용하고 있는지 보여준다.

첫 번째 행은 데이터 프레임의 자료형을 보여준다.

<class 'pandas.core.frame.DataFrame'>

이어서 그 데이터 프레임에 총 몇 개의 행이 있는지 인덱스와 함께 보여준다.

RangeIndex: 220 entries, 0 to 219

그 뒤로는 각 열의 이름, 행 수, null 값이 있는지/없는지, 자료형은 무엇인지 각각 보여준다. (예제를 보면 id라는 열에 총 220개 행이 있고, null값은 없으며, 자료형은 int64라는 것을 알 수 있다.)

id 220 non-null int64

이어서 각 자료형마다 몇개의 열이 있는지 보여준다.

dtypes: float64(1), int64(2), object(2)

마지막으로 이 데이터 프레임의 메모리 사용량을 보여준다.

memory usage: 8.7+ KB

추천 글


댓글 남기기