[NLP/전처리] 모르는 것들 정리...(3)
자연어 데이터 전처리 과정 문장 내에서 특수 문자나 공백 문자 등 의미를 가지지 않는 문자 제거 (정제, Cleaning) 문장을 단어 혹은 최소한의 의미를 가지는 토큰(token) 단위로 분리 (토큰화, Tokenization) 토큰화 알고리즘에 따라서 토큰화된 결과가 달라질 수 있음 분리된 단어(토큰)에서 같은 의미의 다른 표현을 통일 단어의 원형을 뽑아내는 어간(Stem) 추출 (Stemming) 동사의 기본형 같은 표제어로 통일하는 표제어 추출 (Lemmatization) 영어의 관사(a, an, the)와 같은 문법적으로는 중요하지만 큰 의미를 가지지 않는 불용어(Stopword) 제거 토큰화 된 단어들을 벡터 형태로 임베딩(Embedding)
Data science/Machine learning
2023. 10. 28. 14:29
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 자바
- 코틀린
- 컴과
- RDD
- 동덕여대 컴퓨터학과
- 백준 2108
- 아이엘츠
- 컴퓨터학과
- 그리디 알고리즘
- 스프링부트
- 안드로이드
- 개발
- 리트코드 1768
- 프로그래밍
- 스파크
- 자바 1004번
- 백준
- 백준 1004
- BFS
- bcrypaswordencoder
- 백준9375번
- 웹
- 컴공
- 알고리즘
- 코딩
- 리트코드 1768 해석
- 생활코딩
- 자바 9375
- 동덕여대
- 스프링 강의
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함