텍스트 데이터 전처리 파이프라인

부스트캠프

inhooinu 2025. 10. 24. 00:55

텍스트 데이터 전처리는 자연어 처리 모델 개발 시 굉장히 중요한 단계이다.

이에 일반적인 텍스트 데이터 전처리 파이프라인을 정리해 보았다.

토큰화는 컴퓨터가 처리할 수 있는 의미 있는 최소 단위인 토큰(token)으로 텍스트를 쪼개는 과정을 의미한다.

무엇을 기준으로 토큰화를 할 것인지에 따라 다음과 같은 방법으로 나눌 수 있다.

표준화는 형태는 다르지만 의미가 비슷한 단어들을 통일하는 과정을 의미한다.

불용어 제거: 분석에 필요하지 않은 단어 제거
어휘 표준화: 단어의 형태를 원형으로 통일 (어간 추출, 표제어 추출)
- 어간 추출 (Stemming): 먹었습니다 → 먹었
- 표제어 추출 (Lemmatization): 먹었습니다 → 먹다

벡터화는 전처리가 완료된 토큰을 모델이 학습할 수 있도록 숫자 벡터로 변환하는 과정을 의미한다.

벡터화 방법에는 다음과 같은 방법들이 있다.

week1 학습 기록 - PyTorch (0)	2025.09.05

기록으로 만들어가는 세상

기록을 통해 나를 더 깊이 이해하고, 그 과정을 나누며 함께 성장하고자 합니다.

생성자 주입, 백엔드, setter 주입, spring boot, 신한투자증권, 웰컴킷, 전처리, Spring, 솔루션모델, Layered Architecture, 프로 디지털 아카데미, 비즈니스텍스트마이닝, 성장 잠재력, 그래프이론, 그래프탐색, 세상 편하게 부자되는 법, RAMMAP, SSAFY, 싸피, 필드 주입,

기록으로 만들어가는 세상