티스토리 뷰
(얄팍한 지식으로 적은 글입니다...)
Spark는 빅데이터 처리를 위한 분산 시스템이다. 빠른 속도로 데이터를 처리할 수 있고, 다양한 언어로 사용 가능하다. RDD를 통해 간편하게 구현이 가능하다!
K-means는 데이터 마이닝 알고리즘 중 하나이다. 데이터를 K개의 그룹으로 적절하게 나누는 것을 목표로 한다.
구현 방법
1. 좌표 파일을 읽어와 RDD 생성
2. Random하게 (K개의) center ID를 key로, (1, 좌표값)을 value로 PairRDD(mapToPair)를 생성
3. (input point의 개수, x좌표의 합, y좌표의 합)을 value로 변환 (reduceByKey)
4. center_id에 대한 새로운 center 계산 (mapValues)
5. 2~4번 반복
'Spark' 카테고리의 다른 글
[Spark] 행렬 덧셈, 곱셈 (0) | 2024.04.21 |
---|---|
[스파크] reduce와 PairRDD (0) | 2024.04.21 |
Spark/RDD (Resilient Distributed Dataset) (0) | 2024.03.26 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 컴공
- 그리디 알고리즘
- 컴과
- 안드로이드
- 스프링 강의
- 스파크
- 인프런 김영한 강의
- 동덕여대 컴퓨터학과
- 자바
- 백준
- 개발
- 코틀린
- 자바 9375
- 백준 1004
- 백준9375번
- 자바 1004번
- 코딩
- 백준 2108
- RDD
- 스프링부터
- 동덕여대
- 컴퓨터학과
- 웹
- 아이엘츠
- 13305 자바
- 알고리즘
- 생활코딩
- 프로그래밍
- BFS
- 스프링부트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
글 보관함