Spark로 k-means 알고리즘 사용하기

티스토리 뷰

Spark

도도고영 2024. 6. 16. 14:08

(얄팍한 지식으로 적은 글입니다...)

Spark는 빅데이터 처리를 위한 분산 시스템이다. 빠른 속도로 데이터를 처리할 수 있고, 다양한 언어로 사용 가능하다. RDD를 통해 간편하게 구현이 가능하다!

K-means는 데이터 마이닝 알고리즘 중 하나이다. 데이터를 K개의 그룹으로 적절하게 나누는 것을 목표로 한다.

1. 좌표 파일을 읽어와 RDD 생성

2. Random하게 (K개의) center ID를 key로, (1, 좌표값)을 value로 PairRDD(mapToPair)를 생성

3. (input point의 개수, x좌표의 합, y좌표의 합)을 value로 변환 (reduceByKey)

4. center_id에 대한 새로운 center 계산 (mapValues)

5. 2~4번 반복

[Spark] 행렬 덧셈, 곱셈 (0)	2024.04.21
[스파크] reduce와 PairRDD (0)	2024.04.21
Spark/RDD (Resilient Distributed Dataset) (0)	2024.03.26

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`