728x90

2023 16

기획, ppt, 발표 이게 도대체 뭐죠

과제와 프로젝트 과제 - 주어진것에 대해서 해결책을 찾고 구현한다 - 주제에 대해서 엄청난 고민이 필요하기 보다는 이미 주어진 주제를 실현시켜주는것 프로젝트 - 어느정도 주어진 것에서 새로운 시각으로 살펴봐야함 - 도메인 지식을 공부하고 얻은 인사이트를 바탕으로 문제점을 정의하여 프로젝트 목적을 파악 - 사용자에게 정말 필요한 서비스인지에 대한 고민이 필요 기획 - 우리가 만든 서비스를 사고싶게끔 - 전체적인 스토리가 있어야한다. ( 공감 --> 정의 --> 아이디어 --> 구현) 기획서 intro (도메인 소개) -진행할 프로젝트에 대해서 대략적으로 설면 - 청중이 도메인 지식이 없다면 초 3도 이해 할 수 있게 내용 구성 why (추진배경) - 왜 이런 프로젝트를 진행했냐?? - 현재의 트렌드 - 프..

2023/배웠음 2023.12.12

크롤링 400채우기

400error로 인해 값이 들어오지 않은 경우 해당 경우의 연번을 확인하고 해당 연번 만 파싱 #연번 list_num = [ 30, 112, 178, 199, 478, 591, 649, 751, 752, 881, 902, 1136, 1203, 1271, 2199, 2609, 2645, 2850, 2983, 3000, 3073, 3171, 3469, 3786, 4100, 4565, 4761, 4872, 5099, 5131, 6087, 6196, 6270, 6275, 6915, 6977, 7209, 7213, 7238, 7244, 7286, 7341, 7361, 7514, 7767, 8197, 8226, 8284, 8344, 9297, 9384, 9580, 9621, 9662, 9743, 9959, 106..

2023/근복 2023.11.02

크롤링 판정서 1차 문서 내용

import requests from bs4 import BeautifulSoup import pandas as pd from selenium import webdriver import time from selenium.webdriver.common.by import By driver = webdriver.Chrome() # Step 1: Send an HTTP GET request to the URL pg_num = 66 data = [] doc_data = [] sections = ['주문', '청구 취지', '신청 내용', '신청인 주장', '진료기록 및 의학적 소견', '인정 사실', '관계 법령', '위원회 판단 및 결론'] parsed_data = {section: [] for section ..

2023/근복 2023.10.30

앙상블 (Ensemble)

앙상블 (Ensemble) : 예측기를 모아서 하나의 모델로 만든다 **앙상블 학습은 예측기가 서로 독립적일 때 최고의 성능을 보인다.** -why?: 각 분류기마다 서로 다른 종류의 오차를 만들어 서로가 보완적으로 작용할 수 있기 때문이다. -다른 종류(알고리즘)의 학습기를 사용한다 보팅 (Voting) -각각의 모델을 학습시킨다 (각각의 정확도는 80% 정도) -각 모델이 도출한 y를 투표를 통하여 최종 결정(다수결 투표 == 직접투표) 직접투표: 다수결 투표 (통계적 최빈값, 회귀의 경우 평균을 계산한다.) voting = 'hard' 간접투표: 개별 분류기의 예측 평균을 내어 가장 확률이 높은 클래스를 예측한다. -> 확률 높은 곳에 비중이 있음 == 직투보다 성능이 높다. voting = 'so..

최종데이터 처리

오늘 할 일 -데이터 행별로 보면서 정상범위 밖으로 벗어나는 컬럼 삭제 침전수 탁도가 1NTU이상인 경우가 있음 -> 삭제필요 정수지 탁도가 800, 400에 찍혀있다니 -> 삭제필요(1이상 모두 삭제) 정수지 탁도가 침전수보다 큰 경우 -> 삭제필요 원수 알칼리도 20 이하값들 100이상 -> 보류 원수 전기전도도 0인 값 -> 보류 원수 유입유량 1000이하 6065 2013/09/11 05:00 6488 2013/09/28 21:00 22843 2015/08/16 14:00 22844 2015/08/16 15:00 31314 2016/08/05 15:00 51027 2019/10/17 15:00 52560 2019/12/20 13:00 60508 2020/11/17 15:00 원수 ph 5이하, 9..

머신러닝 모델위주

지도, 비지도, 앙상블 머신러닝에 대하여 목적: 손실함수 최소 지도학습: KNN(k nearest neighbors) -cluster, classifier, regressor -k개의 제일 가까운 이웃을 이용 -거리계산: 유클리디안 거리 -classifier: 다수결에서 다를 예측값으로 -regressor: 평균 -장점: 쉬움 -단점:이상치 처리의 어려움 naive bayes -조건부확률을 사용 SVM(support vector machine) -목적: 마진값은 큰데 오차가 적은 초평면을 찾는것 -classifier, regressor -초평면을 이용해서 데이터의 오차가 가장 -내적이 0에 가까운 것들을 그린 것이 초평면 -w 벡터 가장 오차가 적은 벡터 (데이터를 가장 잘 설명할 수 있는 벡터) -w는..

요약) 강화학습을 이용한 응집제 주입률 최적화

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11132820&nodeId=NODE11132820&medaTypeCode=185005&language=ko_KR&hasTopBanner=true 강화학습을 이용한 응집제 주입률 최적화 | DBpia 박종률, 허환, 서정수, 김태진, 심민규, 강문숙 | 대한전자공학회 학술대회 | 2022.6 www.dbpia.co.kr 서론 y: 적정 응집제 주입률(dosage rate) x: 유입 원수 의 탁도(Turbidity, TB), pH, 알칼리도(Alkalinity, Alk) 등의 수질인자 침전 공정이 끝난 침 전수의 탁도(Turbidity of Sedimentation Basin, TBS) 를 통해 적정한 ..

EDA 정리

문제이해 --> EDA --> 데이터 전처리 문제이해: 목적을 정확하게 파악하고 목표점을 정한다 EDA: 주어진 데이터를 분석하고 데이터를 이해한다. 데이터 구조파악, 데이터 시각화(주요 피처 파악) 데이터 전처리: 중구난방인 데이터셋을 형태를 일정하게 만들어 주고 필요없는 내용은 걸러낸다. 문제 이해 -문제 정의, 해결해야할 문제 파악, 문제 유형(선형회귀/ 이진분류 등등), 평가 지표 EDA 데이터 구조 탐색 -파일별 용도 파악 -데이터의 양(레코드 수, 피처수, 전체 용량 등) -피처 이해(이름, 의미, 데이터 타입, 결측값 개수, 고윳값 개수, 실제값의 데이터 종류 등등) -훈련 데이터와 테스트 데이터의 차이 -타깃값: 제출(예측)해야 하는 값 데이터 시각화 -feature engineering ..

728x90
반응형