빅분기 실기 작업2형 template typing용
import pandas as pd
import numpy as np
# 시험 : 데이터 가져오기
x_test = pd.read_csv("data/X_test.csv")
x_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")
# 연습 : 데이터 가져오기
df = pd.read_csv("data/dataset.csv")
# ------- 데이터 확인 info ---------
# 모든 컬럼값 확인 T
# 행/열 확인 shape (생략가능)
# 요약정보 확인 info()
## 데이터타입, 결측치 등 확인, object 범주형
### object 범주형 인코딩 확인
# 기초통계량 확인 describe()
## count, mean,std,min, 25%, 50%, 75%, max
### 데이터 스케일링 확인, 회귀, 비tree 계열
# 타깃값 확인 unique
## 1차원인지도 확인 (y,)
# ------- 데이터 전처리 preprocessing ---------
# 불필요한 컬럭 삭제 drop(columns=[])
## PK 역할 컬럼 등 삭제
# 결측치 처리하기 fillna()
## 임의로 결측치 삭제하지 말 것
## 평균, 중앙값, 상황에 따른 값
# 범주형 변수 인코딩
## 라벨 인코딩 LabelEncoder, 원핫인코딩 OneHotEncoder
## 라벨 인코딩(Tree 계열의 분류 알고리즘에 사용)
# 파생변수 생성
## 필요시 생성
# 데이터 스케일링
## 연속형 변수의 최대, 최소 분포차가 클때
## MinMaxScaler, StandardScaler, RobustScaler
## test는 train용의로 transform()
## Tree 계열 필수는 아님
# 상관관계 확인 corr()
## 필요 시 확인
# 전처리 확인 info()
# ------- 머신러닝 machine learning ---------
# 평가용 데이터 분리 model_selection
## stratify, stes_size, y값 1차원 확인
# 데이터 학습
## fit, predict, predict_proba
## 분류 XXXClassifier, LogisticRegression
## 회귀(예측) XXXRegressor(XXXRegression)
## 공통 ensemble
## RandomForestXXX : n_estimators (default = 100), max_depth, criterion
## criterion : 분할 품질을 측정하는 기능 ()
### RandomForestClassifier: criterion{“gini”, “entropy”, “log_loss”}, default=”gini”
### RandomForestRegressor: criterion{“mse”, “mae”}, / v1.2 criterion{“squared_error”, “absolute_error”}, default=”squared_error”
## GradientBoostingXXX : n_estimators, learning_rate(default = 0.1)
# 데이터 평가 metrics
## 회귀 : MAE, MSE, RMSE, R^2, RMSE는 np.sqrt(MSE값)
## 분류 : ROC_AUC, Accuracy(정확도), Precision(정밀도), Recall(재현율)
# ------- 답안 제출 ---------
# 전체학습데이터로 다시 학습
# 제출용 예측
# 답안 제출 참고
# 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용
#pd.DataFrame({'cust_id': x_test_data.cust_id, 'gender': pred}).to_csv('424242.csv', index=False)
# 제출 최종 확인
#print(pd.read_csv("data/424242.csv"))