대부분의 “빅 데이터 아키텍쳐”

원문 : http://venublog.com/2012/11/30/typical-big-data-architecture/

시간이 없어서 핵심부분만 정리해봅니다. 빅데이터를 4가지 요소로 분해하고 이때 중요한 부분들을 각부분별로 정리한 글입니다. 설한 부분은 한줄로 요약하고 중요한 부분은 원문으로 올렸습니다.(대강번역..).

대부분의 빅데이터 아키텍쳐는 아래와 같습니다. 몇가지 부분이 빠지거나 추가될수는 있지만 대채로 아래와 같다고 볼수 있습니다.(저도 동의함)

“Big” Data Architecture

Big Data Architecture


대채로 4가지 요소의 느슨한 구조를 취하고 있다고 볼수 있습니다.

1. Data Source

다양한 형태의 데이터 소스들

  • Data from SQL, NoSQL stores (MySQL, Oracle, PostgreSQL, MongoDB, etc. – Mostly structured)
  • (Semi/Un)-structured data (CRM, marketing, campaign, spend, revenue, leads,  etc.)
  • Web logs or other log files (weblogs, user clicks, user visits, activity, etc.)

2. Data Transformation

 ETL (Extract, Transform and Load) or import/export tools and/or scripts.

로그관리 툴을 고려할수 도 있다. .

  • ETL, ELTL tools (bash/python/perl/java scripts, Business Objects, SSIS, Kettle, etc.)
  • SQOOP (Data Source to Hadoop data transformation tool, JDBC compatible)
  • Import/Export tool (SQL/NoSQL vendor specific tools)
  • Log Management tools (Splunk, Syslog, Custom log filter scripts, flume, scribe, loggly, etc.)

3. Data Processing or Data Integration

다양한 목적을 위한 데이터 처리 및 병합

  • Hadoop and Ecosystem (Hadoop/HDFS, Map-reduce, HBase, Hive, Impala, Pig etc) – uses HDFS as native storage
  • Data Warehouse and Analytics solution (MySQL, SQL Server, Vertica, Green Plum, Aster Data, Exadata, SAP HANA, IBM Netezza, IBM Pure Data, Tera Data, etc.) – Uses vendor specific storage, optionally uses HDFS, even though with degraded performance.
  • In-memory Analytics (SAS, Kognitio, Druid, etc.). This is an emerging market and trying to take advantage by reading directly from HDFS. We will see lot of in-memory analytics in coming days.

4. Data Consumption

Data consumption components [(ad-hoc) or externally (using APIs)]

사용가능한 형태로 구성

  • Reporting (custom dashboards, micro strategy, pentaho, business objects, cognos, hyperion, tableau,  etc.)
  • Search or Discovery (solr, elastic search, tibco spotfire, datameer etc.)
  • Data Science, Mining and Analysis (mainly for internal data analysis to predict or estimate the overall performance and also drive recommendation using set of algorithms, user defined map-reduce jobs or ad-hoc queries)

4가지 요소의일부로 모니터링 역시 필요하다.(퍼포먼스,오류,등등..)

Advertisements