Python Pandas(파이썬 판다스) 이해하기

파이썬 판다스(Pandas)는 데이터 처리를 위한 패키지(라이브러리)로, 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 사용된다. 판다스 패키지는 이러한 데이터를 처리하기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다. (참고: http://pandas.pydata.org/pandas-docs/stable/)

Pandas install(판다스 설치)

아나콘다를 설치하지 않았다면 아래의 커맨드로 Pandas를 별도 설치할 수 있다.

pip install pandas

pandas import(판다스 불러오기)

일반적으로 아래와 같이 pd라는 이름으로 불러온다.

import pandas as pd

Pandas 자료구조

Pandas는 DataFrameSeries라는 자료구조를 갖고 있고, 이러한 자료구조를 사용하여 기존에 엑셀로 하던 분석을 더 빠르고 효율적으로 할 수 있게 한다.

DataFrame 사용법

DataFrame은 Table 형태를 가지는 2차원 자료구조로, Column과 Row 단위로 이루어져 있다. 따라서, 엑셀(Excel)이나, 일반적인 DBMS처럼 사용 된다.

DataFrame 선언하기

엑셀(Excel) 파일이나, json, csv 파일 같은 외부 파일을 불러서 선언하는 경우는 아래와 같다.

df = pd.read_excel('./data.xlsx')

리스트(list), 딕셔너리(dictionary)등과 같은 파이썬 자료구조로 DataFrame을 선언할 때는 아래와 같이 할 수 있다.

df = pd.DataFrame(data)

기존 DataFrame을 이용하여 DataFrame을 선언하는 방법은 아래와 같이 큰 DF에서 분석에 필요한 작은 DF를 추출해서 만들 수 있다.

df_dept = df.loc[(df.department == dept)]

DataFrame 호출하기

데이터프레임은 2차원 리스트를 매개변수로 전달한다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재하고, 이는 행과 열을 가지는 자료구조를 의미한다. 데이터프레임은 열(columns), 인덱스(index), 값(values)으로 구성됩니다. 이 세 개의 구성 요소로부터 데이터프레임을 생성하고, 사용할 수 있다.

values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')
print('-'*18)
print(df)

[결과]

데이터프레임 출력 :
------------------
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9

Series 사용법

1차원 데이터 구조로 Series 데미터가 모여서 2차원이 되면 DataFrame 자료구조와 같게 된다. 사용법은 리스트와 비슷한 형태로 사용된다.

sr = pd.Series([17000, 18000, 1000, 5000],
               index=["피자", "치킨", "콜라", "맥주"])
print('시리즈 출력 :')
print('-'*15)
print(sr)

[결과]

시리즈 출력 :
---------------
피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64

참고

답글 남기기