Analyzer

Analyzer 카테고리의 모든 포스트 - 한국어

1개의 포스트

🧠 형태소 분석기와 Analyzer 비교

이 문서는 Elasticsearch에서의 형태소 분석 개념과
다양한 analyzer의 차이를 이해하기 위한 실전 예제를 포함하고 있습니다.


5. 🧠 형태소 분석기란 무엇인가?

  • 형태소 분석기(morphological analyzer)는 문장을 의미 단위(형태소) 로 분리하는 역할을 합니다.
  • Elasticsearch에서는 analyzer를 통해 이 작업을 수행합니다.

⚙️ analyzer 구성 요소

analyzer = tokenizer + filter
  • tokenizer: 문장을 기본 단위로 쪼갬 (예: 단어 기준, n-gram 등)
  • filter: 소문자 변환, 불용어 제거 등 후처리 작업 수행

🇰🇷 nori: 한글 형태소 분석기

  • Elasticsearch에서 제공하는 nori analyzer한국어에 특화된 형태소 분석기입니다.
  • 띄어쓰기만으로 분리하기 어려운 어미, 조사, 접두어, 복합어 등을 처리 가능
  • 예: "삼성전자의 주가는"삼성전자, , 주가,

6. 🔬 다양한 analyzer 비교

테스트 문장

삼성전자의 주가는 7만 원이다.

1️⃣ standard analyzer (기본)

POST http://localhost:9200/_analyze
{
  "analyzer": "standard",
  "text": "삼성전자의 주가는 7만 원이다."
}

📌 결과 예시: