[NLP/전처리] 모르는 것들 정리...(3)

티스토리 뷰

Data science/Machine learning

도도고영 2023. 10. 28. 14:29

자연어 데이터 전처리 과정

문장 내에서 특수 문자나 공백 문자 등 의미를 가지지 않는 문자 제거 (정제, Cleaning)
문장을 단어 혹은 최소한의 의미를 가지는 토큰(token) 단위로 분리 (토큰화, Tokenization)
- 토큰화 알고리즘에 따라서 토큰화된 결과가 달라질 수 있음
분리된 단어(토큰)에서 같은 의미의 다른 표현을 통일
- 단어의 원형을 뽑아내는 어간(Stem) 추출 (Stemming)
- 동사의 기본형 같은 표제어로 통일하는 표제어 추출 (Lemmatization)
영어의 관사(a, an, the)와 같은 문법적으로는 중요하지만 큰 의미를 가지지 않는 불용어(Stopword) 제거
토큰화 된 단어들을 벡터 형태로 임베딩(Embedding)

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함