Tibero Hadoop Connector 소개

Tibero Hadoop Connector 개념과 기능에 대해서 설명합니다.

Hadoop은 Apache 재단의 오픈 소스 솔루션으로 대용량 데이터를 저장하고 병렬 및 분산 처리를 쉽게 하기 위한 프레임워크입니다.

Hadoop은 아래과 같은 여러 소프트웨어 스택들을 포함하고 있습니다.

  • HDFS(Hadoop Distributed File System) 분산 파일 시스템으로 데이터 블록 복제를 통한 장애 복구와 고가용성을 제공합니다.

  • MapReduce 분산 프로그래밍 프레임워크입니다. 수행하려는 작업을 Map과 Reduce 형태로 작성하면 자동으로 분산 병렬 수행을 하는 시스템이며, 여러 노드의 자원을 사용한 병렬 및 분산 처리를 지원하고 작업이 실패하 는 경우에 대한 장애 복구 기능을 제공합니다.

이처럼 Hadoop은 빅데이터를 저장하고 빠르게 처리하기 위한 시스템입니다.

데이터 양이 기하급수적으로 늘어남에 따라 Hadoop을 사용해 데이터를 저장하고 처리하는 기업이 많아지고 있습니다. 하지만 Hadoop은 기본적으로 데이터 처리를 위해 MapReduce 프로그램을 작성해야 하므로 데이터 분석가가 원하는 다양한 질의를 만들기 위해서는 프로그래밍의 부담이 크다는 단점을 갖습니다. 즉, 기존의 SQL을 사용한 즉각적 이고 상호 작용 가능한(interactive) 인터페이스를 제공하지 못하고 문제 해결을 위한 코드를 작성해야 하기 때문에 이에 따른 불편함이 큽니다.

또한 다양한 형태의 데이터를 저장하기 위해 여러 데이터 소스를 사용하는 경우도 많습니다.

즉, 비정형 데이터는 HDFS에 저장하고 정형 데이터는 기존의 RDBMS를 사용하는 경우가 많습니다. 만약 레거시 데이터베이스와 빅데이터를 혼합해 데이터 분석을 해야 하는 경우에는 이런 데이터 소스의 이질성으로 인해 점점 더 복잡도가 증가하고 있는 실정입니다.


주요 기능

Tibero Hadoop Connector는 빅데이터 처리의 요구 사항과 다양한 데이터 소스의 통합, 편리한 인터페이스의 필요를 충족시킬 수 있는 솔루션입니다.

기존 Hadoop 시스템의 한계를 극복하기 위해 Tibero Hadoop Connector는 아래와 같은 주요 기능을 제공합니다.

  • HDFS에 저장된 데이터를 External Table 인터페이스를 사용해 일반 테이블과 같이 처리합니다.

  • External Table 인터페이스를 사용함으로써 데이터 마이그래이션의 불편함을 해소합니다.

  • Tibero의 모든 질의 기능을 사용합니다.

  • Tibero의 일반 테이블과의 조인 등 데이터 통합 기능을 제공합니다.

Hadoop에 저장된 데이터를 Ansi-SQL을 통해 질의할 수 있으며 Tibero에 저장된 정형 데이터와 통합 질의가 가능합니다. Tibero와 Hadoop의 HDFS의 데이터에 대한 액세스 인터페이스를 SQL로 통합해 사용하기 때문에 데이터 소스의 분리에 따른 부담을 최소화하며, SQL은 빠르게 변화하는 데이터 분석가의 요구에 맞춰 쉽게 작성할 수 있기 때문에 빠른 데이터 분석 프로세스를 지원합니다.

Tibero Hadoop Connector는 External Table 기능을 사용해 데이터를 액세스합니다. 따라서 다양한 포맷에 대한 데이터를 일반 테이블과 동일한 방법을 통해 질의할 수 있습니다. 또한 Tibero InfiniData에서 제공하는 다 양한 함수와 질의 기능을 Hadoop에 저장된 데이터에도 동일하게 적용할 수 있습니다.

이와 같이 Tibero Hadoop Connector는 Hadoop과 RDBMS의 데이터에 대한 통합 분석을 용이하게 해주며, 이는 기민한 빅데이터 분석 기능을 제공함으로써 궁극적으로 극변하는 기업 환경에 빠르게 대처할 수 있도록 합니다.


Hadoop 지원 버전

Tibero Hadoop Connector는 LINUX OS만 정식으로 지원합니다. Hadoop connector는 hadoop-1.2.X 버전 을 지원합니다.

Last updated