Python/Pandas

[kaggle learn pandas] Summary Functions and Maps

notty 2024. 5. 27. 21:59
728x90

사용한 데이터 형태

 

Summary functions

  • 데이터셋에 대한 기초 통계량을 확인할 수 있다
  • dataframe 전체에 대해서 describe()를 적용하면 수치형 타입의 열에 대해서만 기초 통계를 계산한다
  • 수치형 : count, mean, std, min, 25%, 50%, 75%, max
  • 문자형 : count, unique, top, freq
df.describe()

  • 위 : 수치형 describe()
  • 아래 : object describe()

Maps

  • 해당하는 열의 값들을 다른 값들로 바꾸는것
  • map(), apply()
  • map(), apply() 둘 다 새로운 데이터를 return하지만 원본을 직접 수정하지는 않는다

 

map()

  • 값 하나씩에 접근한다
  • series에 대해서만 사용 가능
  • (lambda x: x-a) : 선택된 열에 value들에 하나씩 접근하여 값을 바꾼다(x에 해당된다)
a = 3
df.col_name_1.map(lambda x: x-a)

 

apply()

  • 사용자 정의 함수를 사용하여 data frame전체를 변환할 때 유용
  • series, dataframe 모두 사용 가능
  • axis = 'columns' (or 1): 행 기준  함수 적용
  • axis = 'index' (or 0): 열 기준 함수 적용
df.apply(lambda x: x+3, axis = 'columns')

 

 

** 값이 가장 클 때의 idx 찾기 : .idxmax()

max_idx = df.col_name1.idxmax()
reviews.loc[max_idx, 'col_name2']
728x90
반응형