(얄팍한 지식으로 적은 글입니다...) Spark는 빅데이터 처리를 위한 분산 시스템이다. 빠른 속도로 데이터를 처리할 수 있고, 다양한 언어로 사용 가능하다. RDD를 통해 간편하게 구현이 가능하다! K-means는 데이터 마이닝 알고리즘 중 하나이다. 데이터를 K개의 그룹으로 적절하게 나누는 것을 목표로 한다. 구현 방법1. 좌표 파일을 읽어와 RDD 생성2. Random하게 (K개의) center ID를 key로, (1, 좌표값)을 value로 PairRDD(mapToPair)를 생성3. (input point의 개수, x좌표의 합, y좌표의 합)을 value로 변환 (reduceByKey)4. center_id에 대한 새로운 center 계산 (mapValues)5. 2~4번 반복
Matrix Computation: 덧셈 1. Format A 3 4 1 3 003 -> (0,0)에 3 014 101 113 2. 두 Matrix에 대해 pair rdd 만들기 mapTopair transformation 사용 3. 두 RDD 합치기 union 사용 (중복 허용) 4. 같은 key를 가지는 element 더하기 ReduceByKey Matrix Computation: 곱셈 *A행렬의 열의 개수와 B행렬의 행의 개수가 같아야 함 *A행렬의 어떤 숫자는 B행렬의 열의 개수만큼 곱해짐, B 행렬의 어떤 숫자는 A행렬의 행의 개수만큼 곱해짐 *결과 행렬은 A의 행의 개수와 B행렬의 열의 개수로 결정됨 1. 개별 곱 구하기: Format a(ix) b(xj)를 처리할 때 key를 (i,j,x)로..
RDD란 스파크가 사용하는 핵심 데이터 모델로 다수의 서버를 걸쳐 분산 방식으로 저장된 데이터를 의미한다. 병렬 처리가 가능하고 장애가 발생할 경우 스스로 복구될 수 있다. 종류 RDD: 기본 형식 PairRDD: key, value pair로 구성된 RDD 구현 // SparkContext 초기화 SparkConf conf = new SparkConf().setMaster("local")/setAppName("My App"); JavaSparkContext sc = new JavaSparkContext(conf); // 외부 데이터 로드, RDD 생성 JavaRDD lines = sc.textFile("..."); RDD transformation map filter distinct: 중복 제거 fla..
- Total
- Today
- Yesterday
- 백준 1004
- 안드로이드
- 컴과
- 코틀린
- 동덕여대
- 자바 9375
- 스프링부트
- 동덕여대 컴퓨터학과
- 자바 1004번
- 백준 2108
- 리트코드 1768
- 코딩
- 스프링 강의
- RDD
- 생활코딩
- 스파크
- 리트코드 1768 해석
- 백준
- 알고리즘
- 그리디 알고리즘
- 컴퓨터학과
- 아이엘츠
- 자바
- bcrypaswordencoder
- 컴공
- BFS
- 프로그래밍
- 웹
- 개발
- 백준9375번
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |