728x90
사용한 데이터 형태
Summary functions
- 데이터셋에 대한 기초 통계량을 확인할 수 있다
- dataframe 전체에 대해서 describe()를 적용하면 수치형 타입의 열에 대해서만 기초 통계를 계산한다
- 수치형 : count, mean, std, min, 25%, 50%, 75%, max
- 문자형 : count, unique, top, freq
df.describe()
- 위 : 수치형 describe()
- 아래 : object describe()
Maps
- 해당하는 열의 값들을 다른 값들로 바꾸는것
- map(), apply()
- map(), apply() 둘 다 새로운 데이터를 return하지만 원본을 직접 수정하지는 않는다
map()
- 값 하나씩에 접근한다
- series에 대해서만 사용 가능
- (lambda x: x-a) : 선택된 열에 value들에 하나씩 접근하여 값을 바꾼다(x에 해당된다)
a = 3
df.col_name_1.map(lambda x: x-a)
apply()
- 사용자 정의 함수를 사용하여 data frame전체를 변환할 때 유용
- series, dataframe 모두 사용 가능
- axis = 'columns' (or 1): 행 기준 함수 적용
- axis = 'index' (or 0): 열 기준 함수 적용
df.apply(lambda x: x+3, axis = 'columns')
** 값이 가장 클 때의 idx 찾기 : .idxmax()
max_idx = df.col_name1.idxmax()
reviews.loc[max_idx, 'col_name2']
728x90
반응형
'Python > Pandas' 카테고리의 다른 글
[kaggle learn pandas] Data Types and Missing Values (0) | 2024.05.30 |
---|---|
[kaggle learn pandas] Grouping and Sorting (0) | 2024.05.30 |
[kaggle learn pandas] Indexing, Selecting & Assigning (0) | 2024.05.27 |
[kaggle learn pandas] Creating, Reading and Writing (0) | 2024.05.27 |
pandas 자주 사용하는 기능(물론 내가) (0) | 2023.11.29 |