본문 바로가기

Elasticsearch (ELK)/Elasticsearch

7-6 형태소 분석 - Stemming

각각의 단어들을 기본 형태로 추출하는 과정을 형태소 분석(Stemming)이라고 불리운다.

 

Snowball 은 2000년 경에 정보 검색의 선구자인 마틴 포터 박사가 개발하여 무료로 공개한 형태소 분석 알고리즘입니다. 보통 ~ing, ~s 등을 제거하여 문장에 쓰인 단어들을 기본 형태로 변경합니다. Elasticsearch 에서 Snowball 은 애널라이저, 토크나이저, 토큰 필터가 모두 정의되어 있다.

 

사용법은 아래 링크 "7-2. 데이터 색인과 텍스트 분석(실전) - 애널라이저 & 토큰필터"을 참고하자.

https://velody.tistory.com/37

 

Nori - 한글 형태소 분석기

https://esbook.kimjmin.net/06-text-analysis/6.7-stemming/6.7.2-nori

 

6.7.2 노리 (nori) 한글 형태소 분석기

이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(kimjmin@gmail.com)에게 사용 내용을 알려주시기 바랍�

esbook.kimjmin.net