ETL

ETL 단계
ETL(Extraction Transformation Loading)은 원천데이터를 추출하여 변환/정제를 통해
목적테이블에 적재하는 데이터획득 프로세스를 의미합니다.
데이터 추출 및 적재 방안
다양한 원천시스템으로부터 데이터 추출은 통합DW의 Staging 영역에
변경분 데이터를 적재함으로서 프로세스를 간결하게 가져갑니다.
추출작업은 DBMS, 시스템 작업시간, 데이터의 성격, 데이터 크기 등을 고려하여 추출주기 및 방법을 결정 합니다.
데이터 검증 프로세스
ETL 시스템에서의 지속적인 건수, 합계(시나리오), 코드, 무결성 등의 검증은 데이터 품질관리의 기반이 됩니다.
검증 요건에 따른 검증설계, 검증 쿼리 개발, 검증결과 모니터링 및 피드백, 검출된 오류데이터 수정 등의
수행 등을 체계적인 검증 프로세스에 따라서 수행 합니다.
  • 구축 단계
    ETL아키텍처
    프로그램작성
    최적화
  • 전략
    수립

    • 원천 시스템과 인터페이스 자료 및 요건 파악
    • 데이터 용량 및 기간계시스템 성능 파악
    • ETL 전략수립
    • ETL 자동화 방안 수립
  • 적용
    방법

    • 데이터 이전 아키텍처 확립
    • 각 단위 시스템간 자료전송 방법 결정
    • 데이터 전송주기 및 전송시점 결정
    • 적용방법에 따라 Pilot 수행
  • ETL
    적용

    • 전송방법별, 적재방법별 프로그램 작성
    • 스케쥴링 및 자동화 프로그램 작성
    • 작업의 모듈화 및 감시, 복구 기능 프로그램
    • 데이터적재 및 데이터 검증 반복 Feedback
  • 타당성
    검토

    • 정합성 검증 및 타당성 검토
    • 메타 데이터 관리와 일관성 유지 확인
    • 성능향상을 위한 시스템 및 데이터베이스
      튜닝
  • ETL 단계
  • 추출

    • 추출 데이터 형식/주기는 업무 및 데이터에 따라 좌우됨
    • 데이터 요건에 따른 추출방법(전체/변경분 추출) 결정
  • 변환

    • 타겟 시스템의 업무요건 형태로 변환
    • 매핑설계서의 변환 규칙을 적용하여 변환
  • 정제

    • 정제 업무규칙 및 표준화 방안에 따라 정제
    • 주요항목은 보정 규칙 적용 및 기타항목은 로그 기록 후 필요에
      따라 사후 보정
  • 적재

    • 로드 유틸리티 및 병렬처리기능 활용
    • 적재과정에서 오류 발생 시 사후복구 방안 확립
    • 소스 및 타겟 데이터 검증용 프로그램을 작성하여 검증
  • 추출대상
  • 원천 DBMS
  • 이기종 DBMS(솔루션 사용시)
  • SAM, EXCEL, XML File 등
  • 추출주기
  • 원천 데이터 생성주기에 따른 일/월/분기/년 등의 배치주기
  • 특정 속보성 데이터는 준실시간 처리
  • Job Scheduler에 주기 등록
  • 추출방법
  • Source – Target 매핑 사용
  • Sam 파일 방식 : 데이터가 대용량일 경우, 적재시 DBMS 자원경합 방지의 경우, 타시스템 I/F의 경우
  • Stream 방식 : 소스시스템에 접근가능, 소용량 또는 추출로직이 필요할 경우