ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [python] 파이썬 데이터 분석 - 데이터 병합, 그룹화 (pandas 활용)
    Dev/Python 2023. 1. 16. 02:24
    728x90

    데이터 병합

    • 공통키를 가진 두 개의 DataFrame을 하나로 만드는 것
    • 방식 : Inner Join, Outer Join, Left Join, Right Join

    Pandas의 merge(), join() 사용하여 병합 구현 가능

    Pandas의 Index 기준으로 병합이 이루어지기도 한다.

     

    Inner Join

    • key 값이 A, B에 모두 존재해야 병합 가능
    • 일치하는 key 값 없다면 결과 테이블에 포함되지 않는다.

     

    Outer Join

    • 공통된 값이 아닌 부분까지도 같이 병합
    • Key 값이 한쪽에만 있어도 결합 가능
    • 정보 없는 경우에는 결측 (NaN) 처리
    • 양쪽 Dataframe의 모든 정보를 하나로 묶어서 가져온다.

     

    Left Join

    • 왼쪽 Dataframe (A)의 Key 값을 모두 포함
    • 우측 Dataframe에 해당 정보가 없다면 결측 처리

     

     

    데이터 연결

    • 하나의 DataFrame에 다른 DataFrame 또는 Series를 연결하여 결과 집합 생성
    • Pandas의 concat(df1, df2, axis,...) 이용하여 데이터 연결
      • 축 axis 값에 따라 axis = 0 이면 행방향 연결, axis = 1 이면 열 방향 연결

     

    활용 예시

    • 데이터 병합 : 서로 다른 성격의 데이터를 병합하여 결과 데이터 프레임을 분석하여 사용
      • 제품, 고객, 매출의 각 테이블 병합 후 분석
    • 데이터 연결 : 여러 그룹으로 산재된 데이터를 하나로 취합할 경우
      • 월별 데이터 -> 데이터 연결
    2.3데이터합치기

    데이터 그룹화

    • 특정 데이터 그룹의 특징에 관한 정보를 얻기 위함
    • Pandas의 groupby() 이용, 특정 열, 열의 리스트, 또는 행 인덱스 기준으로 그룹화 진행
    • 그룹별 집계함수 사용 가능
    • Groupby 객체의 apply() 이용하여 내장함수 외 사용자 정의 함수 사용 가능

    cf ) sort_values() 이용 Series, DataFrame 데이터 정렬 가능

     

    2.4데이터그룹핑
    728x90
    반응형

    댓글

Keydi's Tistory