-
[기초통계] 퍼진 정도의 측도 (분산, 표준편차,범위,사분위수)카테고리 없음 2019. 5. 30. 11:07
자료의 분포를 파악할 때 중심위치만을 가지고는 파악하기 쉽지 않다. 중심위치는 같아도 퍼진정도가 다른 분포가 존재하기 때문이다. 데이터의 퍼진 정도는 분산, 표준편차, 범위, 사분위수로 알 수 있다. 편차 먼저 자료가 얼마나 흩어져 있는지를 편차로 확인 해 볼 수 있다. 편차는 각 관측값이 자료의 중심(평균)으로부터 떨어져 있는 정도로 (관측값-표본평균)로 구할 수 있다. 평균을 중심으로 데이터들이 모여있기 때문에 편차들의 합은 0이고, 편차의 평균도 0이다. 때문에 편차로 퍼진 정도를 측정하는 것은 적합하지 않다. 퍼진 정도를 측정하는 것은 관측값이 중심위치에서 얼마나 떨어져 있는가를 알기위한 것으로 편차의 부호는 중요하지 않고, 편차의 크기만 중요하다. 때문에 편차의 부호를 없에기 위해 제곱을 한 분..
-
[분석/통계] 그리드 서치Study/Statistics 2019. 5. 29. 16:26
여러 조합의 매개변수로 모델을 만들어 최고 성능을 내는 최적 매개변수를 찾아줌 모델에서 중요한 매개변수(일반화 성능을 최대로 높여주는)의 값을 찾기는 어렵지만 꼭 해야하기 때문에 간단하게 알맞는 매개변수를 찾는 방법으로 그리드 서치를 이용 그리드 서치란? 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수를 찾는 방법 매개변수를 튜닝하여 일반화 성능을 개선해줌 python의 skit-learn에서 제공 검증 세트 매개변수를 조정할 때 훈련/테스트로만 나눠서 최적 매개변수를 찾게 되면 새로운 데이터에는 안맞을 수도 있어 테스트 데이터가 더 이상 모델 평가에 적합하지 않은 데이터가 될 수 있음 때문에 훈련/검증/테스트세트로 나눠야함 1. 매개 변수 바꿔가며 모델 학습 : 훈련 데이터..
-
[분석/통계] 교차검증Study/Statistics 2019. 5. 29. 14:22
훈련 데이터와 테스트 데이터를 나누는 행위를 여러번 해서 데이터의 불균형을 없에 일반화 성능을 검증하고 높이는 방법 모델을 만든 후 잘 만든 모델인지 확인하기 위해 데이터셋을 훈련/테스트로 나눠 모델을 평가하곤 하는데 이 때 한 번만 나누게 되면 일반화가 안 될 가능성이 있음 예를 들어 훈련 80%, 테스트 20% 이렇게 한번만 나누어 훈련데이터에는 데이터가 1만 들어가는데, 테스트 데이터에는 5~9까지의 데이터가 들어가게 되는 경우 올바를 분석을 할 수 없게 됨 이를 극복하여 일반화 성능을 높이는 방안으로 교차검증이 있음 교차검증은 훈련/테스트를 여러번 반복해서 나누고, 여러번 학습하여 데이터의 불균형을 없에 일반화 성능을 높이는 샘플링 방법 일반화 성능을 측정함 K-Fold 가장 많이 사용하는 교차 ..
-
[분석/통계] 비지도학습 - 군집(K-MEANS, 병합군집)Study/Statistics 2019. 5. 28. 18:26
군집(clustering)이란? 데이터셋을 그룹으로 묶어서 나누는 작업 클러스터(그룹) 내 동질 클러스터 간 이질 K-평균군집(K-MEANS) 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾기 알고리즘 1. 데이터 포인트를 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트들의 평균으로 클러스터 중심 다시 지정 3. 1,2 반복 4. 더이상 데이터 포인트에 변화가 없을 때 종료 * 중간에 있어서 계속 왔다 갔다하는 경우엔 최대 시행횟수를 정해줘 종료시키기 * 유의할 점 : 초기화 과정에서 임의로 선택된 점에 클러스터 레이블이 붙기 때문에, 클러스터 레이블 번호 자체에 대한 의미는 존재하지 않고, 알고리즘을 시행할 때마다 다른 레이블 번호가 부여될 수 있어 확인을 해봐야 함 k-평균군집 실..
-
[분석/통계] 데이터 전처리와 스케일 조정 방법Study/Statistics 2019. 5. 28. 15:45
데이터 분석을 시작하기 전에 데이터를 전처리하거나 데이터의 스케일을 일정하게 조정한다면 지도학습에서의 정확도가 상승하기도 하여 분석전에 중요하게 해야하는 작업입니다. 특히 svm이나 인공신경망은 사용하기 전에 꼭 해주어야하는 작업입니다. 아래와 같은 데이터셋을 각각의 조정법으로 변환하면 어떻게 될지 확인해보겠습니다. StandardScaler 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 갖게함 특성의 최솟값과 최대값의 크기를 제한하지 않음 인공신경망 중 MLPClassifier사용시 해야하는 작업 RobustScaler 특성들이 같은 스케일을 갖게 된다는 점은 StandardScaler과 비슷 중앙값과 사분위값을 사용 이상치에 영향을 받지 않음 MinMaxScaler 모든 특성이..
-
[python] LP, 선형계획법 python에서 구현Study/Python 2019. 5. 28. 14:18
먼저 선형 계획법에 대한 개념이 궁금하시다면 이전 글을 확인해주세요 2019/05/28 - [IT] - [분석/통계] LP, 선형계획법 pip install pulp # PuLP를 설치해줍시다! from pulp import * # LpProblem 함수를 이용해서 목적식의 종류?를 지정해줍니다 prob = LpProblem("The Whiskas Problem",LpMinimize) #("아무거나이름",최소최대,,,) # LpVariable 함수를 이용해서 사용할 x1,x2 변수의 이름, 상하한, 데이터 유형 지정 x1 = LpVariable ( "ChickenPercent" , 0 , None , LpInteger ) x2 = LpVariable ( "BeefPercent" , 0 ) # LpVari..
-
[R] LP, 선형계획법 R에서 구현Study/R 2019. 5. 28. 14:15
먼저 선형 계획법에 대한 개념이 궁금하시다면 이전 글을 확인해주세요 2019/05/28 - [IT] - [분석/통계] LP, 선형계획법 예를 들어 아래와 같은 문제가 있다면! [문제] 어떤 작전부대의 편성을 계획하고 있다. 이때 이 작전에 효과적인 전투원은 A, B, C 세 가지 타입이 있다. 각 타입의 전투원은 작전을 수행할 때 A타입은 10포인트, B타입은 8포인트, C타입은 9포인트의 효과를 실현할 것으로 기대된다. 부대는 각 타입의 전투원을 몇 명씩 편성해야 작전 효과를 극대화할 수 있을까? 이때 훈련비용(단위: 천만원)은 각 타입 별로 단위 당 2, 3, 1이 소요되며, 합계 1,000을 초과할 수 없다. 전투 준비시간(단위: 시간)은 각각 5, 6, 6이 소요되며, 합계 2,400을 초과할 수..
-
[R] R에서 ODBC를 이용하여 mssql 연동Study/R 2019. 5. 27. 18:30
1. ODBC준비 시작 > ODBC 데이터 원본 설정 > 추가 이름은 R에 연동시킬 때 DSN에 적어야 하기 때문에 기억하기 쉬운걸로 마음대로 정해주세요~ 서버는 연동시킬 SQL 서버명(또는 아이피 주소)을 적어주세요~ SQL 서버 인증을 사용하여 R에서 아이디와 패스워드로 연결해줍시다! 로그인 ID, 암호 모두 연동시킬 때 필요하니 기억하기 쉬운걸로! 기본 데이터베이스는 연동 시키고 싶은 데이터베이스로 해주세요~ 저는 해당 서버가 그냥 연습용이라 모든 권한을 주는 master로 했습니다! 그냥 마침 눌러주세요~~ 데이터 원본 테스트를 클릭해서~ 테스트를 성공적으로 완료하면 끝! 2. R에 연동 1. 설치하기 install.packages("RODBC") 2. 라이브러리 사용 설정 library(RODB..