Pandas를 이용한 데이터 전처리와 시각화: 기본 예제

Pandas는 데이터 분석을 위한 Python 라이브러리로, 데이터 조작과 분석을 쉽게 할 수 있도록 다양한 기능을 제공합니다. 이번 글에서는 Pandas를 이용해 데이터 전처리와 시각화를 하는 기본 예제를 통해서 Pandas의 강력한 기능들을 알아보도록 하겠습니다.

Pandas 설치하기

먼저 Pandas를 설치해야 합니다. 다음 명령어를 사용해 Pandas를 설치할 수 있습니다:

pip install pandas

설치가 완료되면 Pandas를 사용해 데이터 전처리와 시각화를 할 수 있습니다.

데이터 불러오기

먼저 데이터 파일을 불러오는 방법을 알아보겠습니다. CSV 파일을 불러오는 예제는 다음과 같습니다:

import pandas as pd

data = pd.read_csv('example.csv')
print(data.head())

read_csv 함수는 CSV 파일을 DataFrame 형식으로 불러옵니다. head() 함수는 데이터의 처음 5행을 출력합니다.

데이터 전처리

데이터 전처리는 분석을 위해 데이터를 준비하는 과정입니다. 여기에는 결측값 처리, 데이터 정규화, 형 변환 등이 포함됩니다.

결측값 처리

결측값이 있는 데이터를 처리하는 방법은 여러 가지가 있습니다. 결측값을 제거하거나, 특정 값으로 대체할 수 있습니다:

# 결측값이 있는 행 제거
data = data.dropna()

# 결측값을 평균 값으로 대체
data['column_name'] = data['column_name'].fillna(data['column_name'].mean())

데이터 정규화

데이터 정규화는 데이터를 일정한 범위로 변환하는 과정입니다. Min-Max 스케일링을 통해 데이터를 [0, 1] 범위로 변환할 수 있습니다:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data[['column_name']] = scaler.fit_transform(data[['column_name']])

데이터 시각화

Pandas와 함께 Matplotlib 라이브러리를 사용하면 데이터를 시각화할 수 있습니다. 다음은 기본적인 시각화 예제입니다:

import matplotlib.pyplot as plt

# 히스토그램
data['column_name'].hist()
plt.title('Histogram of Column Name')
plt.xlabel('Values')
plt.ylabel('Frequency')
plt.show()

# 산점도
data.plot.scatter(x='column_x', y='column_y')
plt.title('Scatter Plot')
plt.xlabel('Column X')
plt.ylabel('Column Y')
plt.show()

위 예제에서는 히스토그램과 산점도를 사용해 데이터를 시각화했습니다. Matplotlib를 사용하면 다양한 차트를 생성할 수 있습니다.

마무리

이번 글에서는 Pandas를 이용한 데이터 전처리와 시각화의 기본 예제를 다루어 보았습니다. Pandas는 데이터 분석을 위한 매우 강력한 도구로, 이를 잘 활용하면 다양한 데이터 분석 작업을 효율적으로 수행할 수 있습니다. 다음글에서는 조금 더 재밌는 내용인 GAN을 활용한 이미지 생성에 대해서 다뤄보도록 할테니 많이 기대해주세요~.