DataStage
DataStage
(ETL:Extraction, Transformation, Loading)
IBM DataStage는 데이터를 이동하고 변환하는 작업을 설계, 개발, 실행할 수 있도록 지원하는 업계 최고의 데이터 통합 툴입니다.
추출, 변환, 로드(ETL) 패턴과 추출, 로드, 변환(ETL) 패턴을 지원합니다.
병렬 엔진 및 자동 로드 밸런싱
처리량을 최대화하는 동종 최고의 병렬 엔진과 로드 밸런싱을 통해
ETL 성능을 최적화함으로써 데이터를 규모에 따라 처리합니다.
IBM DataStage 인터페이스
개발자의 생산성을 높이고
개발 비용을 절감합니다.
Understand
Discover, model and govern information structure and content
Cleanse
Standardize, merge and correct information
Transform
Combine and restructure information for new uses
Deliver
Synchronize, virtualized and move information for in-line delivery
01
애플리케이션, 데이터베이스, 파일기반 소스에 대한 데이터 및 프로세스 중심적 분석
02
컬럼 간 테이블 간에 신뢰할 수 있는 상세한 프로파일링 정보 제공
03
프로파일링 결과를 Information Server 전체에 걸쳐 활용되도록 공유 가능
04
프로파일링 결과로부터 메타데이터 생성
05
30여 가지의 다양한 Report Template 제공
01 Investigation 조사
Free-form text를 분석하여 실제 데이터가 Metadata에 기술된 종류의 데이터인지 어떤 패턴의 데이터가 분포하고 있는지에 대한 통찰을 제공합니다.
02 Standardization 표준화
Free Format 데이타들을 룰셋을 통해 표준화 작업을 수행합니다.
매칭에 사용할 수 있도록 데이터를 표준화된 형태로 표현합니다
03 Matching 매칭
매칭 알고리즘을 통한 도일 또는 유사한 데이터 중복을 식별합니다. 통계적 분석 기법을 사용하여 유사 데이터를 기준에 따라 그룹핑을 하고 매칭 결과에 대한 상세 리포트를 제공합니다.
04 Survivorship 최적값 선택
중복 식별된 레코드 중에서 최적의 데이터 선택으로 단일 뷰를 생성합니다.
01 직관적인 Top-Down 방식 지원
GUI 환경의 개발 통합 환경제공에 따라 데이터의 흐름을 구현하고 각각의 DBMS, File 및 Platform 환경의 Property를 입력으로 지원하여, 작업화면에서의 컴파일 기능 및 강력한 Debugging 기능을 제공합니다.
02 모니터링 기능
GUI 화면에서 데이터의 흐름을 보며, 실시간 모니터링을 통해 튜닝을 쉽게 할 수 있고 처리 상황을 직접 보면서 모니터링이 가능합니다.
03 복잡한 비지니스로직 구현을 위한 기능
소스 종료에 관계없이 n:n Mapping이 가능하며 모든 처리 과정을 GUI 화면에서 쉽게 판독할 수 있습니다. 비지니스 Logic 구현 시 Click&Select 방식으로 처리합니다.
04 메타데이터 분석 기능
구성하고 있는 오브젝트들을 찾아내는 강력한 검색기능을 내장하여, 해당 오브젝트가 어떤 Job에 쓰였는지 빠르고 쉽게 파악할 수 있어 개발 및 관리의 편의성이 보장됩니다.
05 운영자동화
여러 작업을 하나의 배치 프로그램으로 구성한 후, 병렬처리, 선행작업처리, 작업결과 통보 등의 기능과 함께 처리할 수 있으며 다양한 스케줄링 기능을 통해 운영을 자동화 할 수 있습니다.
06 장애처리&안정화
작업 진행 시 발생한 오류 데이터만을 대상으로 재작업하는 기능을 제공합니다. Job Sequence의 속성을 Restartable 상태로 설정하면 전체 작업 흐름을 실행하던 중 발생되는 에러를 수정하고, 실패했던 Job만을 재수행할 수 있습니다.
07 Job Performance Analysis
Job이 수행된 후 사용한 리소스나 성능 관련 데이터를 보여주는 기능으로, 전체적인 Job을 분배하는데 기초 자료로 사용할 수 있습니다.
08 Resource Estimate
Job이 수행되기 전 해당 시스템의 각종 지원을(CPU, Disk 등) 얼마나 사용할 지 예측 가능하여 시스템 자원이 부족하여 실행 오류가 나는 것을 사전에 판단할 수 있습니다.
09 다양한 개발 함수 제공
DataStage는 수백 개의 표준 변환 함수들을 라이브러리 형태로 내장하고 있어 대부분의 데이터 변환 룰 정의에 사용할 수 있습니다. 필요 시 사용자가 직접 새로운 함수를 작성, 추가하여 변환 기능을 쉽게 확장할 수 있습니다. CHAR, DATE, DECIMAL, FLOAT, INTEGER, NUMBER 등의 데이터를 상이한 데이터 형식으로 변환하는 기능을 제공합니다.
10 재사용성
자원 재사용과 효율화를 위해 Template를 통한 ETL Job 표준화를 지원합니다. Local과 Shared 컨테이너를 통하여 공통으로 활용 가능한 모듈을 작성할 수 있는 인터페이스를 제공하여 다른 Job 간에 Component를 공유하는 방식으로 공통 모듈 사용이나 개발 시 필요한 루틴을 만들어 개발자 간의 Job 작성을 위한 정형화 및 편리성을 기할 수 있습니다.
11 확장성 보장
대용량 데이터를 처리하기 위한 병렬처리 알고리즘을 Engine에 적용하여 고성능의 정보 통합 프로세스 운영이 가능합니다. 다양한 데이터 파티셔닝 기술을 적용하여 시스템의 지원 및 데이터베이스의 자원을 효과적으로 활용할 수 있습니다.
12 성능 관리 기능
엔진 기반의 병렬처리 기능을 제공합니다. 엔진 기반에서 병렬처리의 정도를 지정할 수 있어 개발관점에서 업무요건에 충실하게 Job을 설계할 수 있습니다.
이때 병렬처리는 OS에서 제공되는 Pipelining/Partitioning 기술과 완벽하게 연동되도록 설계되어 있습니다.
13 Backup&Restore 기능
DataStage Server Repository에 저장된 모든 메타데이터(작업 정보, 테이블 정보 등)를 Export형태로 Backup을 받아서 다른 Project와 공유하거나 Recovery 용도로 활용할 수 있는 기능을 제공합니다. 개발환경에서 운영환경으로 메타데이터 이전 시에도 활용이 가능합니다.
14 사용자 관리
Web Console for Information Server를 사용하여 웹 환경에서 사용자 또는 Group 별로 DataStage의 Admin 또는 일반 유저로서 권한을 설정하고, DataStage Admin Client에서 세부 권한을 설정할 수 있습니다.
01
데이터의 양, 복잡한 프로세싱 요건 그리고 독립적으로 확장 가능한 포괄적이고 통합적인 전사 정보 아키텍처
02
전사 차원에서 신뢰할 수 있는 정보 기반과 자동화되고 반복적인 데이터 품질관리
03
통합된 메타테이터에 기반하여, 획기적인 생산성과 유연성을 자랑하는 정보 통합 기반 제공
04
기업 정보 시스템의 핵심인 애플리케이션 서비스와 프로세스 서비스와 연계된 일관적이고 재사용 가능한 정보 서비스
05
검증된 산업 연계 솔루션과 전문 지식으로 가치 증대
06
다양한 소스 상의 정보로 다양하고 신뢰성 있는 연결성 제공(구조화된 정보, 비구조화된 정보, 메인프레임, 애플리케이션 등)
소스시스템에 대한 이해력을 증진하고 확립하며, 지속적으로 데이터 규칙을 모니터링하여 불량 데이터 확산의 위험을 제거합니다.
이질적인 소스간의 정보를 표준화합니다.
여러 소스 및 타겟간의 데이터를 추출, 변환 및 적재합니다.
원가 기반 쿼리 최적화 및 통합 캐싱을 포함하여 분산된 여러 정보 소스에 걸쳐 통합된 단일뷰를 제공합니다.
정보 엑세스 및 통합 프로세스를 SOA 기반에서 재사용 가능한 서비스로 제공할 수 있습니다.
메타데이터 정의를 작성, 관리 및 검색합니다.
DataStage는
전사 정보 아키텍처를 위한
강력한 기반을 제공합니다.