'데이터전처리' 태그의 글 목록

[NLP/전처리] 모르는 것들 정리...(3)

자연어 데이터 전처리 과정 문장 내에서 특수 문자나 공백 문자 등 의미를 가지지 않는 문자 제거 (정제, Cleaning) 문장을 단어 혹은 최소한의 의미를 가지는 토큰(token) 단위로 분리 (토큰화, Tokenization) 토큰화 알고리즘에 따라서 토큰화된 결과가 달라질 수 있음 분리된 단어(토큰)에서 같은 의미의 다른 표현을 통일 단어의 원형을 뽑아내는 어간(Stem) 추출 (Stemming) 동사의 기본형 같은 표제어로 통일하는 표제어 추출 (Lemmatization) 영어의 관사(a, an, the)와 같은 문법적으로는 중요하지만 큰 의미를 가지지 않는 불용어(Stopword) 제거 토큰화 된 단어들을 벡터 형태로 임베딩(Embedding)

Data science/Machine learning 2023. 10. 28. 14:29

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/11 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

글 보관함

공부기록

티스토리툴바