Study
-
[python] Google ColaboratoryStudy/Python 2020. 3. 12. 17:57
Google Colaboratory 소개 구글에서 제공하는 jupyter notebook 플랫폼 •Colaboratory 환경 –CPU: Intel (R) Xeon(R) CPU @ 2.30GHz (Dual-Core) –GPU: Nvidia Tesla K80 –GPU Memory: 13GB –VM 지속시간: 12시간 •장점 : GPU를 무료로 사용할 수 있음 •단점 : Docker로 실행하기 때문에 데이터 설치한 패키지 등이 세션이 끊기면 날라갈 수 있음 → Google Drive에 데이터 백업 ① Google Colaboratory 시작하기 https://drive.google.com/ 접속 → 새로 만들기 → 더보기 → 연결할 앱 더보기(이미 연결한 경우 생략) → Colaboratory 검색하여 추가..
-
[jupyter] 주피터 노트북에 이미지 삽입Study/Python 2020. 2. 10. 15:19
python ide로 많이 사용하는 jupyter notebook에 이미지를 삽입하는 방법입니다! 방법은 두가지가 있습니다 먼저 패키지를 설치하고 # !pip install IPython from IPython.display import Image # 주피터 노트북에 이미지 삽입 1. 코드블럭 안에 삽입하는 법 Image("파일경로/파일명.확장자명") ex) Image("img/picture.png") 2. markdown 안에 삽입하는 법 ![이미지이름?](파일경로/파일명.확장자명) ex) ![nn](img/99.01_01.png)
-
[기초통계] 표집분포Study/Statistics 2019. 5. 31. 16:50
통계량도 확률분포를 가진다(표집분포) 그래서 분포를 봤더니 모집단에 상관없이 표본의 크기가 30이상이면 정규분포를 따름 통계학의 핵심은 표본으로부터 모집단의 성격을 알아내고자 하는 추론(inference)!! => 적절한 표본추출법에 의한 표본이 전체 모집단의 특성을 잘 반영하고 있기 때문에, 일부분을 가지고 전체에 대해 일반화하여 이야기할 수 있음 모수(parameter) : 수치로 표현되는 모집단의 특성 예) 모평균, 모비율, 모표준편차,,, 통계적 추론 : 제한된 표본으로부터 모수를 추론하는 이론적인 뒷받침 제공 통계량(statistic) : 표본의 관측값들에 의해 결정되는 양 예)표본상관계수, 표본표준편차,,, 통계량 유의할 점 1. 표본은 모집단의 일부분이므로 표본으로부터 계산된 통계량의 값은 ..
-
[기초통계] 정규분포Study/Statistics 2019. 5. 31. 15:11
정규분포는 3시그마안에 확률의 99.7% 포함되어 있는 것으로 통계기법의 대부분은 정규분포를 따라야 한다는 조건이 있다! 때문에 따르지 않는다면 자료를 변환해야함 정규분포(Normal Distribution) 연속확률분포 중 하나 정규분포의 특징 평균=최빈값=중앙값 3시그마 안에 거의 포함됨(0.997) * 그래서 정규분포표에 3.99까지밖에 없음 분산은 같고 평균이 다를 경우 위치만 이동 평균은 같고 분산이 다를 경우 분포의 형태만 변화 = 분산이 커질수록 퍼짐~ 표준정규분포(Standard normal distribution) 평균이 0이고 분산이 1인 정규분포 표준정규분포를 갖는 확률변수 = Z Z는 0을 중심으로 대칭인 분포를 갖게 됨 = 표준정규분포는 0을 기준으로 0.5씩 총 1의 확률을 가짐..
-
[분석/통계] 그리드 서치Study/Statistics 2019. 5. 29. 16:26
여러 조합의 매개변수로 모델을 만들어 최고 성능을 내는 최적 매개변수를 찾아줌 모델에서 중요한 매개변수(일반화 성능을 최대로 높여주는)의 값을 찾기는 어렵지만 꼭 해야하기 때문에 간단하게 알맞는 매개변수를 찾는 방법으로 그리드 서치를 이용 그리드 서치란? 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수를 찾는 방법 매개변수를 튜닝하여 일반화 성능을 개선해줌 python의 skit-learn에서 제공 검증 세트 매개변수를 조정할 때 훈련/테스트로만 나눠서 최적 매개변수를 찾게 되면 새로운 데이터에는 안맞을 수도 있어 테스트 데이터가 더 이상 모델 평가에 적합하지 않은 데이터가 될 수 있음 때문에 훈련/검증/테스트세트로 나눠야함 1. 매개 변수 바꿔가며 모델 학습 : 훈련 데이터..
-
[분석/통계] 교차검증Study/Statistics 2019. 5. 29. 14:22
훈련 데이터와 테스트 데이터를 나누는 행위를 여러번 해서 데이터의 불균형을 없에 일반화 성능을 검증하고 높이는 방법 모델을 만든 후 잘 만든 모델인지 확인하기 위해 데이터셋을 훈련/테스트로 나눠 모델을 평가하곤 하는데 이 때 한 번만 나누게 되면 일반화가 안 될 가능성이 있음 예를 들어 훈련 80%, 테스트 20% 이렇게 한번만 나누어 훈련데이터에는 데이터가 1만 들어가는데, 테스트 데이터에는 5~9까지의 데이터가 들어가게 되는 경우 올바를 분석을 할 수 없게 됨 이를 극복하여 일반화 성능을 높이는 방안으로 교차검증이 있음 교차검증은 훈련/테스트를 여러번 반복해서 나누고, 여러번 학습하여 데이터의 불균형을 없에 일반화 성능을 높이는 샘플링 방법 일반화 성능을 측정함 K-Fold 가장 많이 사용하는 교차 ..
-
[분석/통계] 비지도학습 - 군집(K-MEANS, 병합군집)Study/Statistics 2019. 5. 28. 18:26
군집(clustering)이란? 데이터셋을 그룹으로 묶어서 나누는 작업 클러스터(그룹) 내 동질 클러스터 간 이질 K-평균군집(K-MEANS) 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾기 알고리즘 1. 데이터 포인트를 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트들의 평균으로 클러스터 중심 다시 지정 3. 1,2 반복 4. 더이상 데이터 포인트에 변화가 없을 때 종료 * 중간에 있어서 계속 왔다 갔다하는 경우엔 최대 시행횟수를 정해줘 종료시키기 * 유의할 점 : 초기화 과정에서 임의로 선택된 점에 클러스터 레이블이 붙기 때문에, 클러스터 레이블 번호 자체에 대한 의미는 존재하지 않고, 알고리즘을 시행할 때마다 다른 레이블 번호가 부여될 수 있어 확인을 해봐야 함 k-평균군집 실..
-
[분석/통계] 데이터 전처리와 스케일 조정 방법Study/Statistics 2019. 5. 28. 15:45
데이터 분석을 시작하기 전에 데이터를 전처리하거나 데이터의 스케일을 일정하게 조정한다면 지도학습에서의 정확도가 상승하기도 하여 분석전에 중요하게 해야하는 작업입니다. 특히 svm이나 인공신경망은 사용하기 전에 꼭 해주어야하는 작업입니다. 아래와 같은 데이터셋을 각각의 조정법으로 변환하면 어떻게 될지 확인해보겠습니다. StandardScaler 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 갖게함 특성의 최솟값과 최대값의 크기를 제한하지 않음 인공신경망 중 MLPClassifier사용시 해야하는 작업 RobustScaler 특성들이 같은 스케일을 갖게 된다는 점은 StandardScaler과 비슷 중앙값과 사분위값을 사용 이상치에 영향을 받지 않음 MinMaxScaler 모든 특성이..