Study
-
[Oracle] 인덱스 - 리빌드Study/DB 2021. 5. 25. 13:34
뜻하지 않게 운영업무를 맡게되어 내 업무가 될지 몰랐던,, oracle 관리 작업을 시작하였다. 현재 엑사데이터에 여유공간이 전혀 없이 풀로 사용하고 있어 언제라도 장비가 꺼지면 데이터는 다 날아가버리는 위기 상황이다.. 저장공간 확보 대장정의 세번째! 인덱스 리빌드를 해보려한다.. 인덱스 리빌드는 왜 해야하지? 인덱스와 테이블의 정보가 달라질 때 진행한다. 테이블이 insert/delete/update 될 때 인덱스도 같이 수정된다고 생각한다면 그건 바로 경기도 오산,, 테이블의 수정사항이 많다면 인덱스도 리빌드 해줘야한다! INSERT INSERT SPLIT 현상이 발생할 수 있다! INSERT SPLIT이란? 인덱스의 블럭들이 하나에서 두 개로 나눠지는 현상 기존 블록에 여유공간이 없는 상황에서 새..
-
[python] Google ColaboratoryStudy/Python 2020. 3. 12. 17:57
Google Colaboratory 소개 구글에서 제공하는 jupyter notebook 플랫폼 •Colaboratory 환경 –CPU: Intel (R) Xeon(R) CPU @ 2.30GHz (Dual-Core) –GPU: Nvidia Tesla K80 –GPU Memory: 13GB –VM 지속시간: 12시간 •장점 : GPU를 무료로 사용할 수 있음 •단점 : Docker로 실행하기 때문에 데이터 설치한 패키지 등이 세션이 끊기면 날라갈 수 있음 → Google Drive에 데이터 백업 ① Google Colaboratory 시작하기 https://drive.google.com/ 접속 → 새로 만들기 → 더보기 → 연결할 앱 더보기(이미 연결한 경우 생략) → Colaboratory 검색하여 추가..
-
[jupyter] 주피터 노트북에 이미지 삽입Study/Python 2020. 2. 10. 15:19
python ide로 많이 사용하는 jupyter notebook에 이미지를 삽입하는 방법입니다! 방법은 두가지가 있습니다 먼저 패키지를 설치하고 # !pip install IPython from IPython.display import Image # 주피터 노트북에 이미지 삽입 1. 코드블럭 안에 삽입하는 법 Image("파일경로/파일명.확장자명") ex) Image("img/picture.png") 2. markdown 안에 삽입하는 법  ex) 
-
[기초통계] 표집분포Study/Statistics 2019. 5. 31. 16:50
통계량도 확률분포를 가진다(표집분포) 그래서 분포를 봤더니 모집단에 상관없이 표본의 크기가 30이상이면 정규분포를 따름 통계학의 핵심은 표본으로부터 모집단의 성격을 알아내고자 하는 추론(inference)!! => 적절한 표본추출법에 의한 표본이 전체 모집단의 특성을 잘 반영하고 있기 때문에, 일부분을 가지고 전체에 대해 일반화하여 이야기할 수 있음 모수(parameter) : 수치로 표현되는 모집단의 특성 예) 모평균, 모비율, 모표준편차,,, 통계적 추론 : 제한된 표본으로부터 모수를 추론하는 이론적인 뒷받침 제공 통계량(statistic) : 표본의 관측값들에 의해 결정되는 양 예)표본상관계수, 표본표준편차,,, 통계량 유의할 점 1. 표본은 모집단의 일부분이므로 표본으로부터 계산된 통계량의 값은 ..
-
[기초통계] 정규분포Study/Statistics 2019. 5. 31. 15:11
정규분포는 3시그마안에 확률의 99.7% 포함되어 있는 것으로 통계기법의 대부분은 정규분포를 따라야 한다는 조건이 있다! 때문에 따르지 않는다면 자료를 변환해야함 정규분포(Normal Distribution) 연속확률분포 중 하나 정규분포의 특징 평균=최빈값=중앙값 3시그마 안에 거의 포함됨(0.997) * 그래서 정규분포표에 3.99까지밖에 없음 분산은 같고 평균이 다를 경우 위치만 이동 평균은 같고 분산이 다를 경우 분포의 형태만 변화 = 분산이 커질수록 퍼짐~ 표준정규분포(Standard normal distribution) 평균이 0이고 분산이 1인 정규분포 표준정규분포를 갖는 확률변수 = Z Z는 0을 중심으로 대칭인 분포를 갖게 됨 = 표준정규분포는 0을 기준으로 0.5씩 총 1의 확률을 가짐..
-
[분석/통계] 그리드 서치Study/Statistics 2019. 5. 29. 16:26
여러 조합의 매개변수로 모델을 만들어 최고 성능을 내는 최적 매개변수를 찾아줌 모델에서 중요한 매개변수(일반화 성능을 최대로 높여주는)의 값을 찾기는 어렵지만 꼭 해야하기 때문에 간단하게 알맞는 매개변수를 찾는 방법으로 그리드 서치를 이용 그리드 서치란? 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도하여 최적의 매개변수를 찾는 방법 매개변수를 튜닝하여 일반화 성능을 개선해줌 python의 skit-learn에서 제공 검증 세트 매개변수를 조정할 때 훈련/테스트로만 나눠서 최적 매개변수를 찾게 되면 새로운 데이터에는 안맞을 수도 있어 테스트 데이터가 더 이상 모델 평가에 적합하지 않은 데이터가 될 수 있음 때문에 훈련/검증/테스트세트로 나눠야함 1. 매개 변수 바꿔가며 모델 학습 : 훈련 데이터..
-
[분석/통계] 교차검증Study/Statistics 2019. 5. 29. 14:22
훈련 데이터와 테스트 데이터를 나누는 행위를 여러번 해서 데이터의 불균형을 없에 일반화 성능을 검증하고 높이는 방법 모델을 만든 후 잘 만든 모델인지 확인하기 위해 데이터셋을 훈련/테스트로 나눠 모델을 평가하곤 하는데 이 때 한 번만 나누게 되면 일반화가 안 될 가능성이 있음 예를 들어 훈련 80%, 테스트 20% 이렇게 한번만 나누어 훈련데이터에는 데이터가 1만 들어가는데, 테스트 데이터에는 5~9까지의 데이터가 들어가게 되는 경우 올바를 분석을 할 수 없게 됨 이를 극복하여 일반화 성능을 높이는 방안으로 교차검증이 있음 교차검증은 훈련/테스트를 여러번 반복해서 나누고, 여러번 학습하여 데이터의 불균형을 없에 일반화 성능을 높이는 샘플링 방법 일반화 성능을 측정함 K-Fold 가장 많이 사용하는 교차 ..
-
[분석/통계] 비지도학습 - 군집(K-MEANS, 병합군집)Study/Statistics 2019. 5. 28. 18:26
군집(clustering)이란? 데이터셋을 그룹으로 묶어서 나누는 작업 클러스터(그룹) 내 동질 클러스터 간 이질 K-평균군집(K-MEANS) 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾기 알고리즘 1. 데이터 포인트를 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트들의 평균으로 클러스터 중심 다시 지정 3. 1,2 반복 4. 더이상 데이터 포인트에 변화가 없을 때 종료 * 중간에 있어서 계속 왔다 갔다하는 경우엔 최대 시행횟수를 정해줘 종료시키기 * 유의할 점 : 초기화 과정에서 임의로 선택된 점에 클러스터 레이블이 붙기 때문에, 클러스터 레이블 번호 자체에 대한 의미는 존재하지 않고, 알고리즘을 시행할 때마다 다른 레이블 번호가 부여될 수 있어 확인을 해봐야 함 k-평균군집 실..