DataStage


DataStage

(ETL:Extraction, Transformation, Loading)

IBM DataStage는 데이터를 이동하고 변환하는 작업을 설계, 개발, 실행할 수 있도록 지원하는 업계 최고의 데이터 통합 툴입니다.

추출, 변환, 로드(ETL) 패턴과 추출, 로드, 변환(ETL) 패턴을 지원합니다.


병렬 엔진 및 자동 로드 밸런싱

처리량을 최대화하는 동종 최고의 병렬 엔진과 로드 밸런싱을 통해

ETL 성능을 최적화함으로써 데이터를 규모에 따라 처리합니다.

IBM DataStage 인터페이스

개발자의 생산성을 높이고

개발 비용을 절감합니다.


Information Server Platform

Understand

Discover, model and govern information structure and content

Cleanse

Standardize, merge and correct information

Transform

Combine and restructure information for new uses

Deliver

Synchronize, virtualized and move information for in-line delivery

Understand

“Websphere Information Analyzer”

성공적으로 데이터를 통합하고 변환하기 위한 필수 요소는 바로 데이터에 대한 완벽한 이해와 운영 시스템의 데이터 품질 이슈에 대한 올바른 인식입니다.

IBM Information Server의 Information Analyzer는 자동화 데이터 프로파일링 및 분석 기능을 통해 소스데이터의 구조를 분석하고, 데이터 통합과 품질 관리 규칙에 부합하는지 여부를 모니터링 합니다.


01

애플리케이션, 데이터베이스, 파일기반 소스에 대한 데이터 및 프로세스 중심적 분석

02

컬럼 간 테이블 간에 신뢰할 수 있는 상세한 프로파일링 정보 제공

03

프로파일링 결과를 Information Server 전체에 걸쳐 활용되도록 공유 가능

04

프로파일링 결과로부터 메타데이터 생성

05

30여 가지의 다양한 Report Template 제공

Cleanse

“Websphere QualityStage”

데이터가 더욱 확산되고 해당 데이터의 품질이 저하됨에 따라 데이터의 오류가 많아지게 됩니다. 오류가 발생한 정보를 식별하고 표준화하여 일치, 조정 및 중복되지 않도록 정제하여 데이터의 품질을 보장해야 합니다. 데이터 품질을 보장함으로써 데이터에 대한 전사적인 단일 뷰가 생성되어 데이터의 신뢰도를 증가시킵니다. Information Server의 QualityStage는 기업표준에 의거하여 소스 DB 단위로 텍스트데이터에 대해 품질평가와 표준화를 수행하고, 중복되어 있는 동일데이터를 전사관점의 Single View로 통합하는 데이터리엔지니어링을 지원합니다.


01 Investigation 조사

Free-form text를 분석하여 실제 데이터가 Metadata에 기술된 종류의 데이터인지 어떤 패턴의 데이터가 분포하고 있는지에 대한 통찰을 제공합니다.

02 Standardization 표준화

Free Format 데이타들을 룰셋을 통해 표준화 작업을 수행합니다.

매칭에 사용할 수 있도록 데이터를 표준화된 형태로 표현합니다

03 Matching 매칭

매칭 알고리즘을 통한 도일 또는 유사한 데이터 중복을 식별합니다. 통계적 분석 기법을 사용하여 유사 데이터를 기준에 따라 그룹핑을 하고 매칭 결과에 대한 상세 리포트를 제공합니다.

04 Survivorship 최적값 선택

중복 식별된 레코드 중에서 최적의 데이터 선택으로 단일 뷰를 생성합니다.

Transform and Deliver

“Websphere Datastage”

새로운 비지니스 상황에서 정보가 효율적으로 사용되기 위해 변환작업은 필수적입니다. 기업은 데이터의 흐름을 활용하여 복잡하고 다양한 모든 데이터 소스의 데이터 구조를 적합한 시기에 변환하고 전달해야 합니다. Transformation and Delivery는 대용량 배치성 데이터 이동, 이벤트 주도형 적시성(Right Time) 응답, 서비스 지향 아키텍처(SOA), 연합 쿼리(Federated Query) 등의 다수의 매커니즘에 걸쳐 사용될 수 있습니다. Information Sever의 DataStage는 강력한 병렬 프로세싱 기법을 이용하여 대용량의 데이터를 신속하게 처리할 수 있습니다.


01 직관적인 Top-Down 방식 지원

GUI 환경의 개발 통합 환경제공에 따라 데이터의 흐름을 구현하고 각각의 DBMS, File 및 Platform 환경의 Property를 입력으로 지원하여, 작업화면에서의 컴파일 기능 및 강력한 Debugging 기능을 제공합니다.

02 모니터링 기능

GUI 화면에서 데이터의 흐름을 보며, 실시간 모니터링을 통해 튜닝을 쉽게 할 수 있고 처리 상황을 직접 보면서 모니터링이 가능합니다.

03 복잡한 비지니스로직 구현을 위한 기능

소스 종료에 관계없이 n:n Mapping이 가능하며 모든 처리 과정을 GUI 화면에서 쉽게 판독할 수 있습니다. 비지니스 Logic 구현 시 Click&Select 방식으로 처리합니다.

04 메타데이터 분석 기능

구성하고 있는 오브젝트들을 찾아내는 강력한 검색기능을 내장하여, 해당 오브젝트가 어떤 Job에 쓰였는지 빠르고 쉽게 파악할 수 있어 개발 및 관리의 편의성이 보장됩니다.

05 운영자동화

여러 작업을 하나의 배치 프로그램으로 구성한 후, 병렬처리, 선행작업처리, 작업결과 통보 등의 기능과 함께 처리할 수 있으며 다양한 스케줄링 기능을 통해 운영을 자동화 할 수 있습니다.

06 장애처리&안정화

작업 진행 시 발생한 오류 데이터만을 대상으로 재작업하는 기능을 제공합니다. Job Sequence의 속성을 Restartable 상태로 설정하면 전체 작업 흐름을 실행하던 중 발생되는 에러를 수정하고, 실패했던 Job만을 재수행할 수 있습니다.

07 Job Performance Analysis

Job이 수행된 후 사용한 리소스나 성능 관련 데이터를 보여주는 기능으로, 전체적인 Job을 분배하는데 기초 자료로 사용할 수 있습니다.

08 Resource Estimate

Job이 수행되기 전 해당 시스템의 각종 지원을(CPU, Disk 등) 얼마나 사용할 지 예측 가능하여 시스템 자원이 부족하여 실행 오류가 나는 것을 사전에 판단할 수 있습니다.

09 다양한 개발 함수 제공

DataStage는 수백 개의 표준 변환 함수들을 라이브러리 형태로 내장하고 있어 대부분의 데이터 변환 룰 정의에 사용할 수 있습니다. 필요 시 사용자가 직접 새로운 함수를 작성, 추가하여 변환 기능을 쉽게 확장할 수 있습니다. CHAR, DATE, DECIMAL, FLOAT, INTEGER, NUMBER 등의 데이터를 상이한 데이터 형식으로 변환하는 기능을 제공합니다.

10 재사용성

자원 재사용과 효율화를 위해 Template를 통한 ETL Job 표준화를 지원합니다. Local과 Shared 컨테이너를 통하여 공통으로 활용 가능한 모듈을 작성할 수 있는 인터페이스를 제공하여 다른 Job 간에 Component를 공유하는 방식으로 공통 모듈 사용이나 개발 시 필요한 루틴을 만들어 개발자 간의 Job 작성을 위한 정형화 및 편리성을 기할 수 있습니다.

11 확장성 보장

대용량 데이터를 처리하기 위한 병렬처리 알고리즘을 Engine에 적용하여 고성능의 정보 통합 프로세스 운영이 가능합니다. 다양한 데이터 파티셔닝 기술을 적용하여 시스템의 지원 및 데이터베이스의 자원을 효과적으로 활용할 수 있습니다.

12 성능 관리 기능

엔진 기반의 병렬처리 기능을 제공합니다. 엔진 기반에서 병렬처리의 정도를 지정할 수 있어 개발관점에서 업무요건에 충실하게 Job을 설계할 수 있습니다.

이때 병렬처리는 OS에서 제공되는 Pipelining/Partitioning 기술과 완벽하게 연동되도록 설계되어 있습니다.

13 Backup&Restore 기능

DataStage Server Repository에 저장된 모든 메타데이터(작업 정보, 테이블 정보 등)를 Export형태로 Backup을 받아서 다른 Project와 공유하거나 Recovery 용도로 활용할 수 있는 기능을 제공합니다. 개발환경에서 운영환경으로 메타데이터 이전 시에도 활용이 가능합니다.

14 사용자 관리

Web Console for Information Server를 사용하여 웹 환경에서 사용자 또는 Group 별로 DataStage의 Admin 또는 일반 유저로서 권한을 설정하고, DataStage Admin Client에서 세부 권한을 설정할 수 있습니다.


Information Server 기대효과

완전한 정보 인프라 구축


01

데이터의 양, 복잡한 프로세싱 요건 그리고 독립적으로 확장 가능한 포괄적이고 통합적인 전사 정보 아키텍처

02

전사 차원에서 신뢰할 수 있는 정보 기반과 자동화되고 반복적인 데이터 품질관리

03

통합된 메타테이터에 기반하여, 획기적인 생산성과 유연성을 자랑하는 정보 통합 기반 제공

04

기업 정보 시스템의 핵심인 애플리케이션 서비스와 프로세스 서비스와 연계된 일관적이고 재사용 가능한 정보 서비스

05

검증된 산업 연계 솔루션과 전문 지식으로 가치 증대

06

다양한 소스 상의 정보로 다양하고 신뢰성 있는 연결성 제공(구조화된 정보, 비구조화된 정보, 메인프레임, 애플리케이션 등)


Information Server 제품 및 관련제품


  • Websphere Information Analyzer

소스시스템에 대한 이해력을 증진하고 확립하며, 지속적으로 데이터 규칙을 모니터링하여 불량 데이터 확산의 위험을 제거합니다.

  • Websphere QualityStage

이질적인 소스간의 정보를 표준화합니다.

  • Websphere DataStage

여러 소스 및 타겟간의 데이터를 추출, 변환 및 적재합니다.

  • Websphere Federation Server

원가 기반 쿼리 최적화 및 통합 캐싱을 포함하여 분산된 여러 정보 소스에 걸쳐 통합된 단일뷰를 제공합니다.

  • Websphere Information Service Director

정보 엑세스 및 통합 프로세스를 SOA 기반에서 재사용 가능한 서비스로 제공할 수 있습니다.

  • Websphere Business Glossary

메타데이터 정의를 작성, 관리 및 검색합니다.

DataStage는

전사 정보 아키텍처를 위한

강력한 기반을 제공합니다.