final

  • import warnings
from warnings import filterwarnings
filterwarnings('ignore')
  • import pandas as pd
  • import numpy as np
  • import sklearn as sk
  • import scipy as sp
  • cond = df.dtypes == object
  • df.columns[cond]
  • df.describe()
  • df.isnull().sum()
  • df.corr()
  • df['mpg'].sort_values()
  • df['gear'].astype('int32') # 문자열로
  • pd.to_datetime(df['date_added']) # 날짜형으로 변환
  • df['gear'].value_counts()
  • pd.concat([df1,df2], axis=0, ignore_index=True) # [df1,df2] 리스트로 입력
  • pd.get_dummies(df[obj_cols]) # one-hot 인코딩 후 pd.concat()으로 합치기
  • pd.concat([df1,df2], axis=1)
  • pd.merge(df_left, df_right, how='inner', on='key') # sql join
  • from sklearn.preprocessing
  • from sklearn.model_selection
  • from sklearn.ensemble
  • from sklearn.metrics
  • MinMaxScaler() => df[[]] 이중으로 넣어서 한번의 처리
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
df[['TAX']] = mms.fit_transform(df[['TAX']])
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
df[['MEDV','TAX']] = mms.fit_transform(df[['MEDV','TAX']])
  • cross_validate()
from sklearn.model_selection import cross_validate
rs = cross_validate(model,train_x, train_y)
score = rs['test_score']
score.mean()
  • 회귀 : r2_score, mean_squared_error, mean_absolute_error, np.sqrt(mean_squared_error(val_pred, val_y)) => r2_score 만 1에 가까워야 좋음
  • 분류 : accuracy_score, recall_score, precision_score, roc_auc_score, f1_score => 모두 1에 가까워야 좋은 성능
  • 결과 파일 저장 : pd.DataFrame(pred_test).to_csv('data/수험번호.csv', index=False)
  • pd.DataFrame({'ID': test_id, 'TravelInsurance': gbc_pred}).to_csv('424242.csv', index=False)

제 3유형 sp.stats

  • alternative는 대립가설 기준으로 작성 해야 함, less or greater
  • 이항 검정 binomtest(x, n, p=0.5, alternative='two-sided')
  • 모든 표본 정규성 검정 shapiro(x)
  • ttest 단일 표본 : ttest_1sample(x, 모평균)
  • 단일 표본 비정규성이면 wilcoxon(x - 모평균) # =>
  • 2개 표본 등분산 검정 levene(x)
  • 등분산이 아닌 경우 equal_var=False
  • ttest 독립 표본 : ttest_ind(x1, x2, equal_var=True)
  • 독립 표본 비정규성이면 wilcoxon(x1,x2)
  • ttest 대응(쌍) 표본 : ttest_rel(x1, x2) # 등분산 검사 않함
  • 3개이상 표본 일원분산분석 f_oneway(x1, x2, x3)
  • 평균 검정이 아니면 => 카이제곱 적합성 검정 chisquare(x,xe) => 각 각 넣기
  • 평균 검정이 아니면 => 카이제곱 독립성 검정 chi2_contingency([x,xe]) => [ ]로 넣기