final
from warnings import filterwarnings
filterwarnings('ignore')
- import pandas as pd
- import numpy as np
- import sklearn as sk
- import scipy as sp
- cond = df.dtypes == object
- df.columns[cond]
- df.describe()
- df.isnull().sum()
- df.corr()
- df['mpg'].sort_values()
- df['gear'].astype('int32') # 문자열로
- pd.to_datetime(df['date_added']) # 날짜형으로 변환
- df['gear'].value_counts()
- pd.concat([df1,df2], axis=0, ignore_index=True) # [df1,df2] 리스트로 입력
- pd.get_dummies(df[obj_cols]) # one-hot 인코딩 후 pd.concat()으로 합치기
- pd.concat([df1,df2], axis=1)
- pd.merge(df_left, df_right, how='inner', on='key') # sql join
- from sklearn.preprocessing
- from sklearn.model_selection
- from sklearn.ensemble
- from sklearn.metrics
- MinMaxScaler() => df[[]] 이중으로 넣어서 한번의 처리
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
df[['TAX']] = mms.fit_transform(df[['TAX']])
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
df[['MEDV','TAX']] = mms.fit_transform(df[['MEDV','TAX']])
from sklearn.model_selection import cross_validate
rs = cross_validate(model,train_x, train_y)
score = rs['test_score']
score.mean()
- 회귀 : r2_score, mean_squared_error, mean_absolute_error, np.sqrt(mean_squared_error(val_pred, val_y)) => r2_score 만 1에 가까워야 좋음
- 분류 : accuracy_score, recall_score, precision_score, roc_auc_score, f1_score => 모두 1에 가까워야 좋은 성능
- 결과 파일 저장 : pd.DataFrame(pred_test).to_csv('data/수험번호.csv', index=False)
- pd.DataFrame({'ID': test_id, 'TravelInsurance': gbc_pred}).to_csv('424242.csv', index=False)
제 3유형 sp.stats
- alternative는 대립가설 기준으로 작성 해야 함, less or greater
- 이항 검정 binomtest(x, n, p=0.5, alternative='two-sided')
- 모든 표본 정규성 검정 shapiro(x)
- ttest 단일 표본 : ttest_1sample(x, 모평균)
- 단일 표본 비정규성이면 wilcoxon(x - 모평균) # =>
- 2개 표본 등분산 검정 levene(x)
- 등분산이 아닌 경우 equal_var=False
- ttest 독립 표본 : ttest_ind(x1, x2, equal_var=True)
- 독립 표본 비정규성이면 wilcoxon(x1,x2)
- ttest 대응(쌍) 표본 : ttest_rel(x1, x2) # 등분산 검사 않함
- 3개이상 표본 일원분산분석 f_oneway(x1, x2, x3)
- 평균 검정이 아니면 => 카이제곱 적합성 검정 chisquare(x,xe) => 각 각 넣기
- 평균 검정이 아니면 => 카이제곱 독립성 검정 chi2_contingency([x,xe]) => [ ]로 넣기