Study
-
[spark] FIXED_LEN_BYTE_ARRAY 오류Study/spark 2024. 10. 16. 10:19
parquet 파일을 read 하다 보면 아래와 같은 오류가 발생할 수 있다. 발생원인으로는 parquet 파일 내 decimal type의 컬럼이 존재할 경우 간혹 발생할 수 있다.parquet 파일 read 시 vector parquet reader가 활성화 되면서 binary type으로 decording 하는데이때, decimal type이 존재하면 오류가 발생하는 것이다. error messageorg.apache.spark.SparkException: Task failed while writing rows.Caused by: com.databricks.sql.io.FileReadException: Error while reading file s3://bucket-name/landing/edw/..
-
[MySQL / MariaDB] MySQL의 설정 파일Study/DB 2024. 9. 27. 15:38
MySQL의 설정파일은 OS 종류에 따라 확장자가 다름LINUX의 경우 .cnfWindow의 경우 .ini 설정 파일 경로1. linux - my.cnflinux의 설정파일은 my.cnf이며 아래 경로 중 존재/etc/my.cnf/etc/mysql/my.cnf/usr/local/mysql/etc/my.cnf~/.my.cnf2. window - my.iniwindow의 설정파일은 my.cnf이며 아래 경로 중 존재C:\Windows\my.iniC:\my.iniC:\Program Files\MySQL\MySQL Server x.x\my.ini
-
[pyspark] RollUp 사용하기Study/spark 2024. 2. 26. 17:30
ver1 ver2 오라클과는 달리 group by 뒤 with rollup으로 입력하기
-
[PYTHON] 크롤링 - 크롤링 종료 (close, quit, dispose 차이 비교)Study/Python 2021. 6. 16. 15:53
크롤링이 끝나면 크롬 드라이버를 종료시켜줘야한다. Selenium 모듈에는 3가지 종료 함수가 있다. 함수 크롬 브라우저 종료 크롬 드라이버 종료 특징 close() 현재 실행중인 1개만 종료 X 1. 활성화 된 창만 닫기 때문에 현재 창을 닫고 새로운 창을 열어 재활용 가능 2. 드라이버가 종료된게 아니라 메모리를 계속 사용 3. 완전 종료 시 사용하면 안됨 quit() 모두 종료 O 1. Selenium 전체 종료 2. 완전 종료시 사용 dispose() 모두 종료 O 1. quit()와 동일 참고 사이트 더보기 https://pgh268400.tistory.com/121 [C#] Selenium 프로그램 종료 후 종료되게 하기와 Close,Quit, Dispose 차이 알아보기 Selenium에서 ..
-
[PYTHON] 크롤링 - selenium 백그라운드 실행하기Study/Python 2021. 6. 16. 15:33
파이썬으로 크롤링 시 백그라운드에서 실행 시킬 수 있다. 정기적으로 자동 실행하며, 더이상 크롤링 과정을 모니터링 하지 않아도 될 경우 사용하면 좋다. # selenium 모듈 import from selenium import webdriver # 크롬드라이버 경로 설정 chrome_driver_path = "크롬드라이버 설치 경로" # 크롤링 옵션 생성 options = webdriver.ChromeOptions() # 백그라운드 실행 옵션 추가 options.add_argument("headless") # 크롬 드라이버 실행 driver = webdriver.Chrome(executable_path = chrome_driver_path, chrome_options= options) 해당 소스를 사용하..
-
[PYTHON] 크롤링 - 일시정지 (sleep)Study/Python 2021. 6. 16. 15:15
파이썬에서 웹 크롤링 시 이전 동작을 기다렸다 실행시켜야하는 경우 사용하는 함수 아래 소스를 사용하면 정확히 1초 뒤에 end가 실행되는것을 확인할 수 있다. sleep(초) : ()안에는 초단위로 지정해주면 된다. (소수점도 가능) # time 모듈 import from time import sleep print("Start") sleep(1) print("End") 참고 사이트 더보기 https://ponyozzang.tistory.com/336 Python 일시 정지 sleep(초,밀리초) 함수 사용 방법 및 예제 파이썬에서 동작을 실행 중에 1초 동안 대기했다가 처리를 해야 하거나 다른 API에서 응답을 기다리기 위해 잠시 멈춰야 하거나 하는 경우가 있습니다. 이러한 경우에는 Python의 tim..
-
[Oracle] 인덱스 - 리빌드Study/DB 2021. 5. 25. 13:34
뜻하지 않게 운영업무를 맡게되어 내 업무가 될지 몰랐던,, oracle 관리 작업을 시작하였다. 현재 엑사데이터에 여유공간이 전혀 없이 풀로 사용하고 있어 언제라도 장비가 꺼지면 데이터는 다 날아가버리는 위기 상황이다.. 저장공간 확보 대장정의 세번째! 인덱스 리빌드를 해보려한다.. 인덱스 리빌드는 왜 해야하지? 인덱스와 테이블의 정보가 달라질 때 진행한다. 테이블이 insert/delete/update 될 때 인덱스도 같이 수정된다고 생각한다면 그건 바로 경기도 오산,, 테이블의 수정사항이 많다면 인덱스도 리빌드 해줘야한다! INSERT INSERT SPLIT 현상이 발생할 수 있다! INSERT SPLIT이란? 인덱스의 블럭들이 하나에서 두 개로 나눠지는 현상 기존 블록에 여유공간이 없는 상황에서 새..