텍스트 데이터 전처리는 자연어 처리 모델 개발 시 굉장히 중요한 단계이다.
이에 일반적인 텍스트 데이터 전처리 파이프라인을 정리해 보았다.

1. 정제
- 소문자 변환
- 구두점 제거
- 불필요한 공백 제거
- 정규 표현식을 이용한 특정 패턴을 가지는 문자열 제거
(HTML 태그, URL, 이메일 주소, 해시태그, 숫자, 반복되는 문자 등)
2. 토큰화 (Tokenization)
토큰화는 컴퓨터가 처리할 수 있는 의미 있는 최소 단위인 토큰(token)으로 텍스트를 쪼개는 과정을 의미한다.
무엇을 기준으로 토큰화를 할 것인지에 따라 다음과 같은 방법으로 나눌 수 있다.
- 단어 단위 토큰화: ["나는", "학교에", "간다"]
- 형태소 단위 토큰화: ["나", "는", "학교", "에", "가", "ㄴ다"]
- 서브워드 단위 토큰화: ["나", "##는", "학교", "##에", "간", "##다"]
3. 표준화 (Standardization)
표준화는 형태는 다르지만 의미가 비슷한 단어들을 통일하는 과정을 의미한다.
- 불용어 제거: 분석에 필요하지 않은 단어 제거
- 어휘 표준화: 단어의 형태를 원형으로 통일 (어간 추출, 표제어 추출)
- 어간 추출 (Stemming): 먹었습니다 → 먹었
- 표제어 추출 (Lemmatization): 먹었습니다 → 먹다
4. 벡터화 (Vectorization)
벡터화는 전처리가 완료된 토큰을 모델이 학습할 수 있도록 숫자 벡터로 변환하는 과정을 의미한다.
벡터화 방법에는 다음과 같은 방법들이 있다.
- One-Hot Encoding
- Bag-of-Words (BoW)
- TF-IDF
- Word2Vec, GloVe (예측 기반 임베딩)
- BERT, ELMo (문맥 기반 임베딩)
'부스트캠프' 카테고리의 다른 글
| week1 학습 기록 - PyTorch (0) | 2025.09.05 |
|---|