분류 전체보기 4

AUTO SCORE

interpreter model 중 즉 해석이가능한 머신러닝 모델입니다. Auto score 라는 기법을 설명하려고 합니다. 사실 제가 까먹지 않으려고 하는것인데요 간단히 말해서 이 방법은 랜덤포레스트와 변수선택을 하여서 로지스틱 회귀분석으로 이루어져 변수의 중요도를 평가할수있는 기법으로 생각하시면 될것같습니다. 저자는 임상적인 환경에서의 변수 중요도를 제시하였습니다. 임상적 환경뿐만 아닌 제조업 데이터분석쪽에서도의 변수중요도 파악에 유용할것으로 생각되어집니다. 오토스코어의 과정은 이렇습니다. Module 1 : 기계학습(랜덤포레스트)을 통한 변수 순위 지정 Module 2 : 변수 변환 Module 3 : 점수 파생 Module 4 : 모델 선택 Module 5 : 도메인 지식 기반 점수 미세 조정 M..

Shapiro-Wilk test

검정통계량 W의 원리는 선형모형에서 최소제곱법을 이용하여 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합(SS)이 최소가 되는 해를 구하는 방법입니다 이 방법은 값을 정확하게 측정할 수 없는 경우에 유용하게 사용될 수 있으며, 특히 그 계의 방정식이 어떤 형태인지를 알고 있을 때 방정식의 상수 값들을 추정하는 데에 사용되는데 즉 여기에서는 모수값들을 찾는데 이용되어집니다 $$ E(x)_{i}^{}=m_{i}^{} $$ $$ m=(m_{1}^{},....m_{n}^{})^T $$ 여기서 벡터 m은 표준 정규 분포에서 샘플링된 독립적이고 동일하게 분포된 확률 변수의 기대값 으로 구성됩니다. $$ cov(x_{i}^{},x_{j}^{})=v_{ij}^{} $$ $$ V=(v_{ij}^{}) $$ 여기서 ..

정규성 검정 개요

정규성 검정이란? 데이터셋의 분포가 정규분포를 따르는지에 대해 검정하는것 많은 통계분석 방법(예: t-test)에서 자료가 정규분포를 따른다는 가정 하에 분석이 수행되기 때문에 따라 분석을 하기전에 정규성 가정이 만족되는지 검토하는것이 좋음 (실제자료가 정규성 가정을 만족하지 않는다면 통계분석 결과에 대한 타당성이 떨어지기 때문) 쉽게말해 확률변수X 값을 넣었을때 확률밀도함수 f(x)로 반환되는 값이 정규분포를 가정하기 때문에 정규분포에서의 확률변수X값에 대한 가정이라고 보면된다

자료의통계분석 방법

분석목적 분석방법 정규성 만족 정규성 만족 안함 독립적인. 두 그룹의 평균/중위수 비교 (범주형 vs 연속형) independent two sample t-test Wilcoxon rank sum test (Mann Whitney test) 짝지은 그룹의 평균/중위수 비교 (범주형 vs. 연속형) Paired t-test Wilcoxon signed rank test 독립적인 세 그룹의 평균/중위수 비교. (범주형 vs. 연속형) ANOVA (bonferroni) Kruskal Wallis test 두 연속형 변수의 모수적/비모수적 상관성(연속형 vs. 연속형) Pearson correlation Spearman correlation

카테고리 없음 2022.03.28