Elastic 가이드북
페이스북 커뮤니티
Elastic 공식 홈
Search…
Elastic 가이드 북
1. 서문
2. Elasticsearch 시작하기
3. Elasticsearch 시스템 구조
4. Elasticsearch 데이터 처리
5. 검색과 쿼리 - Query DSL
6. 데이터 색인과 텍스트 분석
6.1 역 인덱스 - Inverted Index
6.2 텍스트 분석 - Text Analysis
6.3 애널라이저 - Analyzer
6.4 캐릭터 필터 - Character Filter
6.5 토크나이저 - Tokenizer
6.5.1 Standard, Letter, Whitespace
6.5.2 UAX URL Email
6.5.3 Pattern
6.5.4 Path Hierarchy
6.6 토큰 필터 - Token Filter
6.7 형태소 분석 - Stemming
7. 인덱스 설정과 매핑 - Settings & Mappings
8. 집계 - Aggregations
Powered By
GitBook
6.5 토크나이저 - Tokenizer
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(
[email protected]
)에게 사용 내용을 알려주시기 바랍니다.
데이터 색인 과정에서 검색 기능에 가장 큰 영향을 미치는 단계가 토크나이저 입니다. 데이터 분석 과정에서 토크나이저는 반드시
한 개
만 사용이 가능하며
tokenizer
항목에 단일값으로 설정합니다. 이 책에서는 자주 사용되고 유용한 토크나이저들 위주로 설명하겠습니다.
토크나이저들 중
NGram
,
Lowercase
같은 토크나이저들은 대부분은 Standard 토크나이저에 같은 이름의 토큰 필터를 내장한 들입니다. 이 책에서 다루지 않는 토크나이저들은 공식 홈페이지의 도큐먼트를 확인하시기 바랍니다.
Previous
6.4.3 Pattern Replace
Next
6.5.1 Standard, Letter, Whitespace
Last modified
2yr ago
Copy link