Study/Statistics
-
[기초통계] 표집분포Study/Statistics 2019. 5. 31. 16:50
통계량도 확률분포를 가진다(표집분포) 그래서 분포를 봤더니 모집단에 상관없이 표본의 크기가 30이상이면 정규분포를 따름 통계학의 핵심은 표본으로부터 모집단의 성격을 알아내고자 하는 추론(inference)!! => 적절한 표본추출법에 의한 표본이 전체 모집단의 특성을 잘 반영하고 있기 때문에, 일부분을 가지고 전체에 대해 일반화하여 이야기할 수 있음 모수(parameter) : 수치로 표현되는 모집단의 특성 예) 모평균, 모비율, 모표준편차,,, 통계적 추론 : 제한된 표본으로부터 모수를 추론하는 이론적인 뒷받침 제공 통계량(statistic) : 표본의 관측값들에 의해 결정되는 양 예)표본상관계수, 표본표준편차,,, 통계량 유의할 점 1. 표본은 모집단의 일부분이므로 표본으로부터 계산된 통계량의 값은 ..
-
[기초통계] 정규분포Study/Statistics 2019. 5. 31. 15:11
정규분포는 3시그마안에 확률의 99.7% 포함되어 있는 것으로 통계기법의 대부분은 정규분포를 따라야 한다는 조건이 있다! 때문에 따르지 않는다면 자료를 변환해야함 정규분포(Normal Distribution) 연속확률분포 중 하나 정규분포의 특징 평균=최빈값=중앙값 3시그마 안에 거의 포함됨(0.997) * 그래서 정규분포표에 3.99까지밖에 없음 분산은 같고 평균이 다를 경우 위치만 이동 평균은 같고 분산이 다를 경우 분포의 형태만 변화 = 분산이 커질수록 퍼짐~ 표준정규분포(Standard normal distribution) 평균이 0이고 분산이 1인 정규분포 표준정규분포를 갖는 확률변수 = Z Z는 0을 중심으로 대칭인 분포를 갖게 됨 = 표준정규분포는 0을 기준으로 0.5씩 총 1의 확률을 가짐..
-
[분석/통계] 그리드 서치Study/Statistics 2019. 5. 29. 16:26
여러 조합의 매개변수로 모델을 만들어 최고 성능을 내는 최적 매개변수를 찾아줌 모델에서 중요한 매개변수(일반화 성능을 최대로 높여주는)의 값을 찾기는 어렵지만 꼭 해야하기 때문에 간단하게 알맞는 매개변수를 찾는 방법으로 그리드 서치를 이용 그리드 서치란? 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수를 찾는 방법 매개변수를 튜닝하여 일반화 성능을 개선해줌 python의 skit-learn에서 제공 검증 세트 매개변수를 조정할 때 훈련/테스트로만 나눠서 최적 매개변수를 찾게 되면 새로운 데이터에는 안맞을 수도 있어 테스트 데이터가 더 이상 모델 평가에 적합하지 않은 데이터가 될 수 있음 때문에 훈련/검증/테스트세트로 나눠야함 1. 매개 변수 바꿔가며 모델 학습 : 훈련 데이터..
-
[분석/통계] 교차검증Study/Statistics 2019. 5. 29. 14:22
훈련 데이터와 테스트 데이터를 나누는 행위를 여러번 해서 데이터의 불균형을 없에 일반화 성능을 검증하고 높이는 방법 모델을 만든 후 잘 만든 모델인지 확인하기 위해 데이터셋을 훈련/테스트로 나눠 모델을 평가하곤 하는데 이 때 한 번만 나누게 되면 일반화가 안 될 가능성이 있음 예를 들어 훈련 80%, 테스트 20% 이렇게 한번만 나누어 훈련데이터에는 데이터가 1만 들어가는데, 테스트 데이터에는 5~9까지의 데이터가 들어가게 되는 경우 올바를 분석을 할 수 없게 됨 이를 극복하여 일반화 성능을 높이는 방안으로 교차검증이 있음 교차검증은 훈련/테스트를 여러번 반복해서 나누고, 여러번 학습하여 데이터의 불균형을 없에 일반화 성능을 높이는 샘플링 방법 일반화 성능을 측정함 K-Fold 가장 많이 사용하는 교차 ..
-
[분석/통계] 비지도학습 - 군집(K-MEANS, 병합군집)Study/Statistics 2019. 5. 28. 18:26
군집(clustering)이란? 데이터셋을 그룹으로 묶어서 나누는 작업 클러스터(그룹) 내 동질 클러스터 간 이질 K-평균군집(K-MEANS) 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾기 알고리즘 1. 데이터 포인트를 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트들의 평균으로 클러스터 중심 다시 지정 3. 1,2 반복 4. 더이상 데이터 포인트에 변화가 없을 때 종료 * 중간에 있어서 계속 왔다 갔다하는 경우엔 최대 시행횟수를 정해줘 종료시키기 * 유의할 점 : 초기화 과정에서 임의로 선택된 점에 클러스터 레이블이 붙기 때문에, 클러스터 레이블 번호 자체에 대한 의미는 존재하지 않고, 알고리즘을 시행할 때마다 다른 레이블 번호가 부여될 수 있어 확인을 해봐야 함 k-평균군집 실..
-
[분석/통계] 데이터 전처리와 스케일 조정 방법Study/Statistics 2019. 5. 28. 15:45
데이터 분석을 시작하기 전에 데이터를 전처리하거나 데이터의 스케일을 일정하게 조정한다면 지도학습에서의 정확도가 상승하기도 하여 분석전에 중요하게 해야하는 작업입니다. 특히 svm이나 인공신경망은 사용하기 전에 꼭 해주어야하는 작업입니다. 아래와 같은 데이터셋을 각각의 조정법으로 변환하면 어떻게 될지 확인해보겠습니다. StandardScaler 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 갖게함 특성의 최솟값과 최대값의 크기를 제한하지 않음 인공신경망 중 MLPClassifier사용시 해야하는 작업 RobustScaler 특성들이 같은 스케일을 갖게 된다는 점은 StandardScaler과 비슷 중앙값과 사분위값을 사용 이상치에 영향을 받지 않음 MinMaxScaler 모든 특성이..
-
[지도학습] 의사결정나무/랜덤포레스트/그래디언트 부스팅Study/Statistics 2019. 5. 24. 12:28
나무 모양으로 지도학습을 하는 모델 3가지 소개 트리의 복잡도 = 훈련데이터를 학습하기 위해 나무가 커지는 정도 의사결정나무(Decision Tree) 단계별로 예/아니오로 질문을 이어 나가면서 학습하는 모델, 스무고개마냥 리프 : 마지막 노드 순수 노드 : 0또는1로 완전히 분리 된 노드 원리 종속변수를 가장 잘 나눠주는 독립변수의 특징을 가지고 데이터를 예/아니오로 분리 (변수가 이항이라면 A인지B인지로, 변수가 연속형이라면 이상이하) 만약 완전히 분리 되지 않았다면 둘 중 다수에 속한 것을 예측 결과로 함 목표 : 정답에 가장 빨리 도착하는 나무 학습 => 간단하게 예측 가능하도록! 결정 트리의 복잡도 제어하기 트리 모델의 기본값은 모든 리프 노드가 순수 노드가 될 때까지 생성한 트리 => 모든 리..
-
[지도학습] KNNStudy/Statistics 2019. 5. 23. 09:52
지도학습 중 가장 간단하다고 볼 수 있는 거리를 이용하여 예측하는 모델 테스트 데이터와 가장 가까운 k개의 특징을 보고 테스트 데이터 예측 k-최근접 이웃(K-Nearest Neighbors, KNN) 거리가 가장 가까운 데이터포인트를 찾고, 가장 많은 클래스가 예측 결과가 됨 훈련방법 : 훈련데이터 저장 예측방법 : 궁금한 데이터에서 가장 가까운 훈련 데이터를 찾아 선택 이웃을 몇개 찾을 지 몰라서 k! 이웃개수는 내가 정하면 됨~ 이웃수는 홀수로 정하기 예측 결과는 가장 많은 이웃의 상태가 됨! knn 과정 1. 데이터셋 나누기(train/test) 2. 이웃 수(= k) 정하기 3. 훈련 : 훈련데이터 저장 4. 예측 : 테스트 데이터에서 가장 가까운 k개 데이터 포인트가 속한 클래스 중 과반수에 ..