-
[spark] FIXED_LEN_BYTE_ARRAY 오류Study/spark 2024. 10. 16. 10:19
parquet 파일을 read 하다 보면 아래와 같은 오류가 발생할 수 있다. 발생원인으로는 parquet 파일 내 decimal type의 컬럼이 존재할 경우 간혹 발생할 수 있다.parquet 파일 read 시 vector parquet reader가 활성화 되면서 binary type으로 decording 하는데이때, decimal type이 존재하면 오류가 발생하는 것이다. error messageorg.apache.spark.SparkException: Task failed while writing rows.Caused by: com.databricks.sql.io.FileReadException: Error while reading file s3://bucket-name/landing/edw/..
-
[MySQL / MariaDB] MySQL의 설정 파일Study/DB 2024. 9. 27. 15:38
MySQL의 설정파일은 OS 종류에 따라 확장자가 다름LINUX의 경우 .cnfWindow의 경우 .ini 설정 파일 경로1. linux - my.cnflinux의 설정파일은 my.cnf이며 아래 경로 중 존재/etc/my.cnf/etc/mysql/my.cnf/usr/local/mysql/etc/my.cnf~/.my.cnf2. window - my.iniwindow의 설정파일은 my.cnf이며 아래 경로 중 존재C:\Windows\my.iniC:\my.iniC:\Program Files\MySQL\MySQL Server x.x\my.ini
-
[airflow] queued의 다양한 케이스카테고리 없음 2024. 4. 8. 19:54
운영하다보면,, 잘 되던 dag의 task가 갑자기 queued상태에서 멈추는 현상이 일어난다,, 1. airflow log full 다른 거 필요없이 airflow log가 쌓이는 저장소의 상태를 확인해보자 centos라면 df -h 명령어로 확인 가능하다.. airflow 로그는 airflow를 설치한 config 파일에서 확인 가능하니,, 해당 경로 저장소가 가득차있는지를 확인한다.. 해당 케이스에서는 간단히 오래된 로그를 비워주는것으로 해결 가능하다! 저장소를 정리했다면, airflow scheduler를 재시작하거나, 수행하고자하는 dag를 재시작하여야 수행 가능하다. 수행중인 dag가 많은 경우였다면 dag를 다시 막 수행하다 scheduler가 죽기 때문에 (오류 메세지 : The sched..
-
[pyspark] RollUp 사용하기Study/spark 2024. 2. 26. 17:30
ver1 ver2 오라클과는 달리 group by 뒤 with rollup으로 입력하기
-
[apache] 아파치 디렉토리 보안설정 (FollowSymLinks)카테고리 없음 2021. 8. 24. 02:41
운영하면서 하다하다 별걸 다한다. 아파치 보안 설정 변경 중 FollowSymLinks를 수정했는데 FollowSymLinks는 간단하게! 나 다른 폴더 참조할거야! 하는 설정이다 앞에 '+'를 두면 폴더안에 있는거 그냥 다 웹에 보여주자~ 이고, 앞에 '-'를 두면 참조한 폴더 안에 있는 데이터들은 웹에 보여주지 말지 뭐 이런 느낌이다.. 내가 이걸 다시 보게 될 날이 올라나 모르겠지만,, 다시 설정하게 되는 날이 온다면,, 아래 링크를 다시 참고해보자,,, https://s-jg.tistory.com/26 Apache 디렉토리 보안 설정, FollowSymLinks FollowSymlinks 설정은 디렉토리내 심볼릭 링크 사용과 연관이 있다 Option 지시자에 +/- 로 설정하여 활성화 또는 비활성..
-
[PYTHON] 크롤링 - 크롤링 종료 (close, quit, dispose 차이 비교)Study/Python 2021. 6. 16. 15:53
크롤링이 끝나면 크롬 드라이버를 종료시켜줘야한다. Selenium 모듈에는 3가지 종료 함수가 있다. 함수 크롬 브라우저 종료 크롬 드라이버 종료 특징 close() 현재 실행중인 1개만 종료 X 1. 활성화 된 창만 닫기 때문에 현재 창을 닫고 새로운 창을 열어 재활용 가능 2. 드라이버가 종료된게 아니라 메모리를 계속 사용 3. 완전 종료 시 사용하면 안됨 quit() 모두 종료 O 1. Selenium 전체 종료 2. 완전 종료시 사용 dispose() 모두 종료 O 1. quit()와 동일 참고 사이트 더보기 https://pgh268400.tistory.com/121 [C#] Selenium 프로그램 종료 후 종료되게 하기와 Close,Quit, Dispose 차이 알아보기 Selenium에서 ..
-
[PYTHON] 크롤링 - selenium 백그라운드 실행하기Study/Python 2021. 6. 16. 15:33
파이썬으로 크롤링 시 백그라운드에서 실행 시킬 수 있다. 정기적으로 자동 실행하며, 더이상 크롤링 과정을 모니터링 하지 않아도 될 경우 사용하면 좋다. # selenium 모듈 import from selenium import webdriver # 크롬드라이버 경로 설정 chrome_driver_path = "크롬드라이버 설치 경로" # 크롤링 옵션 생성 options = webdriver.ChromeOptions() # 백그라운드 실행 옵션 추가 options.add_argument("headless") # 크롬 드라이버 실행 driver = webdriver.Chrome(executable_path = chrome_driver_path, chrome_options= options) 해당 소스를 사용하..