Pandas 컬럼 추가, 수정 및 제거

Pandas는 데이터 조작과 분석을 위한 강력한 라이브러리로, 데이터프레임(DataFrame)을 사용하여 데이터를 다룬다. 데이터프레임은 표 형식의 데이터 구조로, 행과 열로 이루어져 있다. 이 글에서는 Pandas를 사용하여 데이터프레임에서 컬럼(열)을 추가/수정하고 제거하는 방법에 대해 알아본다.

컬럼 추가

기존 컬럼 활용하여 새 컬럼 추가

기존 컬럼을 활용하여 새로운 컬럼을 추가하는 것은 Pandas에서 흔한 작업 중 하나이다. 예를 들어, 두 개의 컬럼을 더한 결과를 새 컬럼으로 추가하려면 다음과 같이 한다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}

df = pd.DataFrame(data)

# A와 B 컬럼을 더한 결과를 새로운 컬럼 C로 추가
df['C'] = df['A'] + df['B']

print(df)
   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12

상수 값을 가진 컬럼 추가

상수 값을 가진 컬럼을 추가하려면 해당 컬럼의 이름을 지정하고 값을 할당하면 된다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4]}

df = pd.DataFrame(data)

# 상수 값을 가진 컬럼 'B' 추가
df['B'] = 10

print(df)
   A   B
0  1  10
1  2  10
2  3  10
3  4  10

리스트 전체 값을 전달하여 컬럼 추가

리스트로 전체 값을 전달하여 컬럼을 추가할 수 있다. 주의할 것은 추가하려는 리스트 내 데이터 수화 row수가 일치해야 한다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4, 5]}

df = pd.DataFrame(data)

# 상수 값을 가진 컬럼 'B' 추가
df['B'] = [True, False, False, True, True]

print(df)
   A      B
0  1   True
1  2  False
2  3  False
3  4   True
4  5   True

컬럼 수정

컬럼을 수정하려면 해당 컬럼에 새로운 값을 할당하면 된다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}

df = pd.DataFrame(data)

# 'B' 컬럼 값을 수정
df['B'] = df['B'] * 2

print(df)
   A   B
0  1  10
1  2  12
2  3  14
3  4  16

컬럼 제거

단일 컬럼 제거

단일 컬럼을 제거하려면 drop 메서드를 사용한다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}

df = pd.DataFrame(data)

# 'B' 컬럼 제거
df = df.drop('B', axis=1)

print(df)
   A
0  1
1  2
2  3
3  4

여러 컬럼 제거

여러 개의 컬럼을 한 번에 제거하려면 제거하려는 컬럼 이름을 리스트로 전달한다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8],
        'C': [9, 10, 11, 12]}

df = pd.DataFrame(data)

# 'B'와 'C' 컬럼 제거
df = df.drop(['B', 'C'], axis=1)

print(df)
   A
0  1
1  2
2  3
3  4

제거된 결과를 원본에 반영

기본적으로 drop 메서드는 제거된 결과를 새로운 데이터프레임으로 반환한다. 따라서 원본 데이터프레임을 변경하려면 inplace=True 옵션을 사용해야 한다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}

df = pd.DataFrame(data)

# 'B' 컬럼을 제거하고 원본에 반영
df.drop('B', axis=1, inplace=True)

print(df)
   A
0  1
1  2
2  3
3  4

참고

답글 남기기