문제이해 --> EDA --> 데이터 전처리
문제이해: 목적을 정확하게 파악하고 목표점을 정한다
EDA: 주어진 데이터를 분석하고 데이터를 이해한다. 데이터 구조파악, 데이터 시각화(주요 피처 파악)
데이터 전처리: 중구난방인 데이터셋을 형태를 일정하게 만들어 주고 필요없는 내용은 걸러낸다.
문제 이해
-문제 정의, 해결해야할 문제 파악, 문제 유형(선형회귀/ 이진분류 등등), 평가 지표
EDA
데이터 구조 탐색
-파일별 용도 파악
-데이터의 양(레코드 수, 피처수, 전체 용량 등)
-피처 이해(이름, 의미, 데이터 타입, 결측값 개수, 고윳값 개수, 실제값의 데이터 종류 등등)
-훈련 데이터와 테스트 데이터의 차이
-타깃값: 제출(예측)해야 하는 값
데이터 시각화
-feature engineering
-시각화
>수치형: 히스토그램, 커널밀도추정, 분포도, 러그플롯
>범주형: 막대그래프, 포인트플롯, 박스플롯, 바이올린플롯, 카운트플롯
>데이터 관계 시각화: 히트맵, 라인플로스 산점도, 산점도 + 회귀선
-feature 파악
>추가할 피처
>제거할 피처
>피처별 인코딩 전략
-이상치 파악
>해당 피처별 처리 방법
*결과무ㅇ: 추가/ 저ㅔ거 피처 목록, 인코딩 전략, 이상치 처리 전략
데이터 전처리 과정
데이터 로드 --> 제이터 정제 --> 결측치 처리 --> feature engineering --> 데이터 스케일링, 정규화 --> 훈련, 테스트 데이터 나누기 --> 카테골 데이터 처리 --> 불균형 클래스 다르기 --> 피처 선택 --> 데이터 저장
데이터 로드
-필요한 형식에 맞추어 데이터를 읽어온다
데이터 정제
> 이상치 식별 : 일반 데이터들과 동떨어져 있음, 데이커의 분포를 왜곡할 가능성도 충분히 있
>이상치 처리
데이터 전처리는 데이터 분석 및 머신 러닝 모델을 훈련하기 전에 데이터를 정제하고 준비하는 과정을 말합니다. 데이터 전처리는 데이터의 품질을 향상시키고 모델의 성능을 향상시키는 데 중요합니다. 아래는 데이터 전처리의 일반적인 단계와 기술을 설명합니다:
1. 데이터 로드:
데이터를 로드하고 판다스 또는 다른 데이터 처리 도구를 사용하여 데이터 프레임 또는 데이터 구조로 변환합니다. 이전 단계에서 설명한 대로 데이터를 로드
2. 데이터 정제:
-데이터 정제는 데이터의 오류, 불일치 및 이상치를 처리하는 단계입니다
-이상치를 식별하고, 중복된 데이터를 제거하며, 데이터 형식을 통일시키는 작업
- 이상치 처리: 이상치를 식별하고 이를 대체하거나 제거합니다.
- 중복 데이터 제거: 중복된 행을 식별하고 삭제합니다.
- **데이터 형식 변환**: 데이터 형식을 숫자형으로 변환하거나 날짜 및 시간 형식을 처리합니다.
3. 결측치 처리:
-결측치(누락된 데이터)를 다룬다(채워 넣거나 삭제)
-isnull().sum()을 활용 --> null만 제거
-0값이 결측, 누락인 경우도 고려해 보아야한다
-아니면 결측값을 0, null이 아닌 따로 표시해 둔 경우를 고려
4. 피처 엔지니어링:
-새로운 특성을 생성하거나 기존 특성을 변환하여 모델에 더 유용한 정보를 제공
5. 데이터 스케일링과 정규화:
-특성 간의 스케일 차이가 모델에 영향을 미칠 수 있음 --> 스케일링, 정규화 수행
-항상 사용하는 것은 아님 모델의 특석, 데이터 특성에 따라서 사용하지 않아도 되는 경우 있
6. 데이터 분할:
데이터를 훈련, 검증 및 테스트 세트로 나누어 모델을 훈련하고 평가
-검증 데이터의 용도:
용도: 모델의 하이퍼파라미터를 조정하고 검증 데이터에 대한 성능 지표를 모니터링하여 모델을 향상시키는 데 사용
7. 카테고리 데이터:
범주형 데이터 --> 모델이 이해할 수 있는 형태로 변환
8. 피처 선택:
-불필요한 특성을 제거하여 모델의 복잡성을 줄인다
투비컨...
'2023 > 물사랑 나라사랑' 카테고리의 다른 글
머신러닝 모델위주 (0) | 2023.09.11 |
---|---|
요약) 강화학습을 이용한 응집제 주입률 최적화 (0) | 2023.09.11 |
연습 데이터) 상수원-취수원 통합 수질 및 녹조 데이터 (0) | 2023.09.07 |
요약) 응집제의 염기도가 응집에 미치는 영향 (0) | 2023.09.05 |
고탁도시 응집제 자동투입 적용방안 연구 (0) | 2023.09.05 |