각각의 단어들을 기본 형태로 추출하는 과정을 형태소 분석(Stemming)이라고 불리운다.
Snowball 은 2000년 경에 정보 검색의 선구자인 마틴 포터 박사가 개발하여 무료로 공개한 형태소 분석 알고리즘입니다. 보통 ~ing, ~s 등을 제거하여 문장에 쓰인 단어들을 기본 형태로 변경합니다. Elasticsearch 에서 Snowball 은 애널라이저, 토크나이저, 토큰 필터가 모두 정의되어 있다.
사용법은 아래 링크 "7-2. 데이터 색인과 텍스트 분석(실전) - 애널라이저 & 토큰필터"을 참고하자.
Nori - 한글 형태소 분석기
https://esbook.kimjmin.net/06-text-analysis/6.7-stemming/6.7.2-nori
6.7.2 노리 (nori) 한글 형태소 분석기
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(kimjmin@gmail.com)에게 사용 내용을 알려주시기 바랍�
esbook.kimjmin.net
'Elasticsearch (ELK) > Elasticsearch' 카테고리의 다른 글
8-2. Settings & Mappings - Mappings (0) | 2020.05.29 |
---|---|
8-1. Settings & Mappings - Settings (0) | 2020.05.29 |
7-5. 데이터 색인과 텍스트 분석(실전) - Token Filter (0) | 2020.05.28 |
7-4. 데이터 색인과 텍스트 분석(실전) - Tokenizer (0) | 2020.05.28 |
7-3. 데이터 색인과 텍스트 분석(실전) - 캐릭터 필터 (0) | 2020.05.28 |