판다스9 [PYTHON] One-Hot Encoding - 가변수(Dummy Variable) 만들기 가변수 또는 더미 변수는 범주형 데이터를 수치형으로 변환하는 데 사용되는 중요한 개념 중 하나입니다. 이를 통해 기계 학습 모델이 범주형 데이터를 이해하고 처리할 수 있게 됩니다. One-Hot-Encoding은 가변수를 만드는 흔한 방법 중 하나입니다. One-Hot-Encoding이란? One-Hot-Encoding은 범주형 변수를 0 또는 1의 이진 값으로 변환하는 프로세스입니다. 이는 해당하는 범주에 속하면 1로, 그렇지 않으면 0으로 표시됩니다. 예를 들어, '색깔'이라는 범주형 변수가 있다면, '빨강' 또는 '노랑', '초록'인 경우 해당 변수를 3 개의 변수로 분리하여 표현합니다. One-Hot-Encoding의 필요성 기계 학습 모델은 수치형 데이터를 더 잘 처리할 수 있습니다. 그러나 많.. 2024. 3. 10. [PYTHON] 데이터프레임 전처리 (병합, 결합) 데이터 분석 및 전처리 작업에서 여러 데이터프레임을 효과적으로 합치는 것은 중요한 단계 중 하나입니다. 여기에서는 concat()과 merge() 함수를 사용하여 데이터프레임을 합치는 방법에 대해 알아보겠습니다. concat() 함수로 데이터프레임 합치기 concat() 함수를 사용하면 데이터프레임을 열 또는 행을 기준으로 합칠 수 있습니다. # axis=1: 열이 늘어남 / axis=0: 행이 늘어남 pop = pd.concat([pop01, pop02], axis=1, join='outer') # inner로 변경 가능 merge() 함수로 데이터프레임 합치기 merge() 함수를 사용하면 특정 열을 기준으로 데이터프레임을 합칠 수 있습니다. # on: 합칠 열 # how: join 종류 (left,.. 2024. 3. 10. [PYTHON] 데이터프레임 전처리 (결측치) 결측치(NaN)는 데이터 분석 및 머신러닝 모델 학습 과정에서 예기치 못한 문제를 초래할 수 있습니다. 결측치를 무시하거나 그대로 둘 경우, 통계 분석이나 머신러닝 알고리즘에서 예상치 못한 동작이 발생할 수 있습니다. 따라서 결측치 처리는 데이터 전처리의 중요한 단계 중 하나입니다. info() 메서드 활용 info() 메서드는 데이터프레임의 각 열에 대한 요약 정보를 제공하며, 결측치의 존재 여부를 파악할 수 있습니다. # info() 메서드로 결측치 확인 df.info() isna() 또는 isnull() 메서드 활용 # isna() 또는 isnull() 메서드로 결측치 확인 df.isna() isna() 또는 isnull() 메서드는 각 데이터프레임 요소에 대해 결측치 여부를 확인하는 불리언(Boo.. 2024. 3. 10. [PYTHON] 데이터프레임 전처리 (범주데이터 변경 및 생성) 데이터프레임에서 범주값을 다루는 것은 데이터를 효과적으로 분석하고 이해하는 데 중요합니다. 아래는 데이터프레임에서 범주값을 변경하고, 새로운 범주값을 만들어 열로 추가하는 예시입니다. 범주값 변경 map() 메서드를 사용하면 범주형 값을 다른 값으로 쉽게 변경 할 수 있습니다. # 범주값 변경 # Male -> 1, Female -> 0 df['sex'] = df['sex'].map({'Male': 1, 'Female': 0}) # replace() 메서드를 사용하여 범주값 변경 df['sex'] = df['sex'].replace({'Male': 1, 'Female': 0}) 위 코드는 'sex' 열의 값을 변경하여 'Male'을 1로, 'Female'을 0으로 매핑합니다. map()과 replace(.. 2024. 3. 10. 이전 1 2 3 다음