Analyzer
Analyzer 카테고리의 모든 포스트 - 한국어
1개의 포스트
🧠 형태소 분석기와 Analyzer 비교
이 문서는 Elasticsearch에서의 형태소 분석 개념과
다양한 analyzer의 차이를 이해하기 위한 실전 예제를 포함하고 있습니다.
5. 🧠 형태소 분석기란 무엇인가?
- 형태소 분석기(morphological analyzer)는 문장을 의미 단위(형태소) 로 분리하는 역할을 합니다.
- Elasticsearch에서는 analyzer를 통해 이 작업을 수행합니다.
⚙️ analyzer 구성 요소
analyzer = tokenizer + filter
- tokenizer: 문장을 기본 단위로 쪼갬 (예: 단어 기준, n-gram 등)
- filter: 소문자 변환, 불용어 제거 등 후처리 작업 수행
🇰🇷 nori: 한글 형태소 분석기
- Elasticsearch에서 제공하는 nori analyzer는 한국어에 특화된 형태소 분석기입니다.
- 띄어쓰기만으로 분리하기 어려운 어미, 조사, 접두어, 복합어 등을 처리 가능
- 예:
"삼성전자의 주가는"
→삼성전자
,의
,주가
,는
6. 🔬 다양한 analyzer 비교
테스트 문장
삼성전자의 주가는 7만 원이다.
1️⃣ standard analyzer (기본)
POST http://localhost:9200/_analyze
{
"analyzer": "standard",
"text": "삼성전자의 주가는 7만 원이다."
}
📌 결과 예시: