티스토리 뷰

자연어 데이터 전처리 과정

  1. 문장 내에서 특수 문자나 공백 문자 등 의미를 가지지 않는 문자 제거 (정제, Cleaning)
  2. 문장을 단어 혹은 최소한의 의미를 가지는 토큰(token) 단위로 분리 (토큰화, Tokenization)
    • 토큰화 알고리즘에 따라서 토큰화된 결과가 달라질 수 있음
  3. 분리된 단어(토큰)에서 같은 의미의 다른 표현을 통일
    • 단어의 원형을 뽑아내는 어간(Stem) 추출 (Stemming)
    • 동사의 기본형 같은 표제어로 통일하는 표제어 추출 (Lemmatization)
  4. 영어의 관사(a, an, the)와 같은 문법적으로는 중요하지만 큰 의미를 가지지 않는 불용어(Stopword) 제거
  5. 토큰화 된 단어들을 벡터 형태로 임베딩(Embedding)

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함