부스트캠프

텍스트 데이터 전처리 파이프라인

inhooinu 2025. 10. 24. 00:55

텍스트 데이터 전처리는 자연어 처리 모델 개발 시 굉장히 중요한 단계이다.

이에 일반적인 텍스트 데이터 전처리 파이프라인을 정리해 보았다.

 

 

1. 정제

  • 소문자 변환
  • 구두점 제거
  • 불필요한 공백 제거
  • 정규 표현식을 이용한 특정 패턴을 가지는 문자열 제거
    (HTML 태그, URL, 이메일 주소, 해시태그, 숫자, 반복되는 문자 등)

 

2. 토큰화 (Tokenization)

토큰화는 컴퓨터가 처리할 수 있는 의미 있는 최소 단위인 토큰(token)으로 텍스트를 쪼개는 과정을 의미한다.

무엇을 기준으로 토큰화를 할 것인지에 따라 다음과 같은 방법으로 나눌 수 있다.

  • 단어 단위 토큰화: ["나는", "학교에", "간다"]
  • 형태소 단위 토큰화: ["나", "는", "학교", "에", "가", "ㄴ다"]
  • 서브워드 단위 토큰화: ["나", "##는", "학교", "##에", "간", "##다"]

 

3. 표준화 (Standardization)

표준화는 형태는 다르지만 의미가 비슷한 단어들을 통일하는 과정을 의미한다.

  • 불용어 제거: 분석에 필요하지 않은 단어 제거
  • 어휘 표준화: 단어의 형태를 원형으로 통일 (어간 추출, 표제어 추출)
    • 어간 추출 (Stemming): 먹었습니다 → 먹었
    • 표제어 추출 (Lemmatization): 먹었습니다 → 먹다

 

4. 벡터화 (Vectorization)

벡터화는 전처리가 완료된 토큰을 모델이 학습할 수 있도록 숫자 벡터로 변환하는 과정을 의미한다.

벡터화 방법에는 다음과 같은 방법들이 있다.

  • One-Hot Encoding
  • Bag-of-Words (BoW)
  • TF-IDF
  • Word2Vec, GloVe (예측 기반 임베딩)
  • BERT, ELMo (문맥 기반 임베딩)

'부스트캠프' 카테고리의 다른 글

week1 학습 기록 - PyTorch  (0) 2025.09.05