๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
IT

Hadoop Ecosystem: ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ํ•ต์‹ฌ

by ๐Ÿ’ฒ๐ŸŽตโœ–๏ธโœ”๏ธโ˜ผ 2024. 2. 13.
728x90

Hadoop Ecosystem: ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ํ•ต์‹ฌ

1. ์†Œ๊ฐœ

์ด ๋ฌธ์„œ์—์„œ๋Š” Hadoop Ecosystem์— ๋Œ€ํ•œ ๊ฐœ๋…๊ณผ ์ด ๊ธฐ์ˆ ์ด ๋“ฑ์žฅํ•œ ๋ฐฐ๊ฒฝ, ํ˜„์žฌ์˜ ํ™œ์šฉ ๋ฐฉ์•ˆ, ๊ทธ๋ฆฌ๊ณ  ๊ด€๋ จ ๊ธฐ์ˆ ๋“ค์— ๋Œ€ํ•ด ์ž์„ธํ•˜๊ฒŒ ๋‹ค๋ฃน๋‹ˆ๋‹ค. Hadoop์€ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ถ„์„ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ์˜คํ”ˆ ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.

2. Hadoop์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ

2.1 ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ์˜ ์ฆ๊ฐ€

๊ณผ๊ฑฐ์—๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ช‡ ํ…Œ๋ผ๋ฐ”์ดํŠธ๋ฅผ ๋„˜์ง€ ์•Š์•˜์ง€๋งŒ, ํ˜„์žฌ๋Š” ํŽ˜ํƒ€๋ฐ”์ดํŠธ ๋‹จ์œ„์˜ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ์ด๋Ÿฐ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

2.2 ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ์˜ ํ•„์š”์„ฑ

๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋ฐ ์ฒ˜๋ฆฌ ์‹œ์Šคํ…œ์€ ๋‹จ์ผ ์„œ๋ฒ„์—์„œ ์ฒ˜๋ฆฌ๋˜๋Š” ๊ตฌ์กฐ๋กœ, ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ™•์žฅ์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•ด์กŒ๊ณ , Hadoop์ด ์ด์— ๋ฐœ๋งž์ถฐ ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

3. Hadoop Ecosystem ๊ตฌ์„ฑ ์š”์†Œ

3.1 Hadoop Core Components

3.1.1 HDFS (Hadoop Distributed File System)

๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์‚ฐ ์ €์žฅํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋˜๋Š” ํŒŒ์ผ ์‹œ์Šคํ…œ์œผ๋กœ, ๋ฐ์ดํ„ฐ์˜ ์•ˆ์ •์ ์ธ ๋ณด์กด๊ณผ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

3.1.2 MapReduce

๋ถ„์‚ฐ ํ™˜๊ฒฝ์—์„œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ๋กœ, ๋ฐ์ดํ„ฐ๋ฅผ Map๊ณผ Reduce ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

3.2 Hadoop Ecosystem Projects

3.2.1 Apache Hive

๋ฐ์ดํ„ฐ๋ฅผ SQL ์ฟผ๋ฆฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋น„์ „๋ฌธ๊ฐ€๋„ ์‰ฝ๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

3.2.2 Apache HBase

๋ถ„์‚ฐํ˜• NoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋กœ, ๋Œ€๊ทœ๋ชจ ํ…Œ์ด๋ธ”์„ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ฝ๊ณ  ์“ฐ๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

3.2.3 Apache Pig

๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž‘์—…์„ ๊ฐ„๋‹จํ•œ ์Šคํฌ๋ฆฝํŠธ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.

3.2.4 Apache Spark

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ์˜คํ”ˆ ์†Œ์Šค ํด๋Ÿฌ์Šคํ„ฐ ์ปดํ“จํŒ… ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋น ๋ฅธ ์†๋„์™€ ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

3.2.5 Apache Kafka

๋ถ„์‚ฐ ์ŠคํŠธ๋ฆฌ๋ฐ ํ”Œ๋žซํผ์œผ๋กœ, ๋Œ€๋Ÿ‰์˜ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ „์†กํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

4. Hadoop์˜ ํ˜„์žฌ ํ™œ์šฉ ๋ฐฉ์•ˆ

4.1 ๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

Hadoop์€ ๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ํ•ต์‹ฌ ๋„๊ตฌ๋กœ ํ™œ์šฉ๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์‚ฐ์—… ๋ถ„์•ผ์—์„œ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

4.2 ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค

Hadoop Ecosystem์˜ ํ”„๋กœ์ ํŠธ ์ค‘ Hive๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์›จ์–ดํ•˜์šฐ์Šค์ฒ˜๋Ÿผ ์ฟผ๋ฆฌํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4.3 ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆฌ๋ฐ

Apache Kafka์™€ Apache Spark๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ŠคํŠธ๋ฆฌ๋ฐํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

5. Hadoop Ecosystem์˜ ๋ฏธ๋ž˜ ์ „๋ง

Hadoop Ecosystem์€ ๋น ๋ฅด๊ฒŒ ์ง„ํ™”ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹, ์ธ๊ณต์ง€๋Šฅ๊ณผ์˜ ํ†ตํ•ฉ, ๋ณด์•ˆ ๊ฐ•ํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์—์„œ ๋”์šฑ ๋ฐœ์ „ํ•  ์ „๋ง์ž…๋‹ˆ๋‹ค.

6. ๋งˆ๋ฌด๋ฆฌ

Hadoop Ecosystem์€ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ํ•ต์‹ฌ ๋„๊ตฌ๋กœ, ๋‹ค์–‘ํ•œ ํ”„๋กœ์ ํŠธ์™€ ์ปดํฌ๋„ŒํŠธ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋น…๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ์œ ์—ฐํ•˜๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด Hadoop์„ ์ดํ•ดํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์€ ํ˜„๋Œ€ ๊ธฐ์—…๊ณผ ์กฐ์ง์— ์žˆ์–ด์„œ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

๋Œ“๊ธ€