데이터를 다룰 때, 데이터프레임을 효과적으로 조회하는 것은 매우 중요합니다. 판다스에서는 다양한 방법으로 데이터프레임을 조회할 수 있습니다.
1. 특정 열 조회
특정 열을 조회하는 방법은 다양합니다. 가장 일반적인 방법 중 하나는 loc 메서드를 사용하는 것입니다.
- df.loc[ : , [열 이름1, 열 이름2,...]] 형태로 조회할 열 이름을 리스트로 지정합니다.
- 조회할 열이 하나면 리스트 형태가 아니어도 됩니다.
- 열 부분 생략가능 합니다
- 행 부분 생략 불가능합니다.
# total_bill 열 조회
df['total_bill']
# tip, total_bill 열 조회
df[['total_bill', 'tip']]
2. 열 범위 조회
여러 연속된 열을 조회하는 경우, 범위를 지정하여 조회할 수 있습니다.
# sex ~ time 열 조회
df.loc[:, 'sex':'time']
3. 조건으로 조회
데이터프레임을 조건에 맞게 조회하는 방법은 다양합니다. 아래는 그 중 몇 가지 방법입니다.
3.1. 단일 조건 조회
# tip 열 값이 6.0보다 큰 행 조회
df.loc[tip['tip'] > 6]
3.2. 여러 조건 조회
여러 조건을 결합하여 특정 조건을 만족하는 행을 조회할 수 있습니다.
# tip이 6.0보다 크고 day가 'Sat'인 행 조회
df.loc[(tip['tip'] > 6.0) & (tip['day'] == 'Sat')]
# tip이 6.0보다 크거나 day가 'Sat'인 행 조회
df.loc[(df['tip'] > 6.0) | (df['day'] == 'Sat')]
3.3. 편리한 메서드 활용
판다스는 isin()과 between() 메서드를 통해 간편하게 여러 조건을 만족하는 행을 조회할 수 있습니다.
isin([값1, 값2,..., 값n]) : 값1 또는 값2 또는...값n인 데이터만 조회
between(값1, 값2) : 값1~갑2 사이값 조회
# day가 'Sat' 또는 'Sun'인 행 조회
df.loc[df['day'].isin(['Sat', 'Sun'])]
# size가 1과 3 사이인 행 조회
df.loc[df['size'].between(1, 3, inclusive='neither')]
#inclusive='both', 'neither' , 'right', 'left'
3.4. 조건을 만족하는 행의 일부 열 조회
조건을 만족하는 행 중 일부 열만 조회할 수 있습니다.
# size가 5 이상인 행 중 tip 열 조회
df.loc[tip['size'] >= 5, ['tip']]
4. 인덱스 초기화
reset_index() 메서드를 사용하여 인덱스를 초기화할 수 있습니다.
# 인덱스 초기화
df.reset_index(drop=True, inplace=True)
'PYTHON > Pandas 판다스' 카테고리의 다른 글
[PYTHON] 데이터프레임 전처리 (열 이름 변경, 추가, 삭제) (0) | 2024.03.10 |
---|---|
[PYTHON] 데이터프레임 집계 (0) | 2024.03.10 |
[PYTHON] 데이터프레임 탐색 (0) | 2024.03.01 |
[PYTHON] 데이터프레임 생성 (0) | 2024.03.01 |
[PYTHON] NUMPY 넘파이 (0) | 2024.03.01 |