'Spark' 카테고리의 글 목록

Spark로 k-means 알고리즘 사용하기

(얄팍한 지식으로 적은 글입니다...) Spark는 빅데이터 처리를 위한 분산 시스템이다. 빠른 속도로 데이터를 처리할 수 있고, 다양한 언어로 사용 가능하다. RDD를 통해 간편하게 구현이 가능하다! K-means는 데이터 마이닝 알고리즘 중 하나이다. 데이터를 K개의 그룹으로 적절하게 나누는 것을 목표로 한다. 구현 방법1. 좌표 파일을 읽어와 RDD 생성2. Random하게 (K개의) center ID를 key로, (1, 좌표값)을 value로 PairRDD(mapToPair)를 생성3. (input point의 개수, x좌표의 합, y좌표의 합)을 value로 변환 (reduceByKey)4. center_id에 대한 새로운 center 계산 (mapValues)5. 2~4번 반복

Spark 2024. 6. 16. 14:08

[Spark] 행렬 덧셈, 곱셈

Matrix Computation: 덧셈 1. Format A 3 4 1 3 003 -> (0,0)에 3 014 101 113 2. 두 Matrix에 대해 pair rdd 만들기 mapTopair transformation 사용 3. 두 RDD 합치기 union 사용 (중복 허용) 4. 같은 key를 가지는 element 더하기 ReduceByKey Matrix Computation: 곱셈 *A행렬의 열의 개수와 B행렬의 행의 개수가 같아야 함 *A행렬의 어떤 숫자는 B행렬의 열의 개수만큼 곱해짐, B 행렬의 어떤 숫자는 A행렬의 행의 개수만큼 곱해짐 *결과 행렬은 A의 행의 개수와 B행렬의 열의 개수로 결정됨 1. 개별 곱 구하기: Format a(ix) b(xj)를 처리할 때 key를 (i,j,x)로..

Spark 2024. 4. 21. 11:22

[스파크] reduce와 PairRDD

reduce로 숫자들의 합 구하기 Integer sum = rdd.reduce(new Fuction2

Spark 2024. 4. 21. 11:14

Spark/RDD (Resilient Distributed Dataset)

RDD란 스파크가 사용하는 핵심 데이터 모델로 다수의 서버를 걸쳐 분산 방식으로 저장된 데이터를 의미한다. 병렬 처리가 가능하고 장애가 발생할 경우 스스로 복구될 수 있다. 종류 RDD: 기본 형식 PairRDD: key, value pair로 구성된 RDD 구현 // SparkContext 초기화 SparkConf conf = new SparkConf().setMaster("local")/setAppName("My App"); JavaSparkContext sc = new JavaSparkContext(conf); // 외부 데이터 로드, RDD 생성 JavaRDD lines = sc.textFile("..."); RDD transformation map filter distinct: 중복 제거 fla..

Spark 2024. 3. 26. 17:10

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

공부기록

티스토리툴바