6.5.3 Pattern

이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(kimjmin@gmail.com)에게 사용 내용을 알려주시기 바랍니다.

앞에서 살펴본 토크나이저들은 다소 차이는 있지만 기본적으로는 공백을 기준으로 하여 텀 들을 분리합니다. 분석 할 데이터가 사람이 읽는 일반적인 문장이 아니라 서버 시스템이나 IoT 장비 등에서 수집된 머신 데이터인 경우 공백이 아닌 쉼표나 세로선 같은 기호가 값 항목의 구분자로 사용되는 경우가 종종 있습니다. 이런 특수한 문자를 구분자로 사용하여 텀을 분리하고 싶은 경우 사용할 수 있는 것이 Pattern 토크나이저 입니다.

Pattern 토크나이저는 분리할 패턴을 기호 또는 Java 정규식 형태로 지정할 수 있습니다. 구분자 지정은 pattern 항목에 설정합니다. 다음은 인덱스 pat_tokenizer에 슬래시 /를 구분자로 하는 my_pat_tokenizer라는 사용자 정의 토크나이저를 만들고 "/usr/share/elasticsearch/bin" 를 분석하는 예제입니다.

pat_tokenizer 인덱스에 my_pat_tokenizer 토크나이저 생성
PUT pat_tokenizer
{
"settings": {
"analysis": {
"tokenizer": {
"my_pat_tokenizer": {
"type": "pattern",
"pattern": "/"
}
}
}
}
}
request
response
request
my_pat_tokenizer 토크나이저로 문장 분석
GET pat_tokenizer/_analyze
{
"tokenizer": "my_pat_tokenizer",
"text": "/usr/share/elasticsearch/bin"
}
response
my_pat_tokenizer 토크나이저로 문장 분석 결과
{
"tokens" : [
{
"token" : "usr",
"start_offset" : 1,
"end_offset" : 4,
"type" : "word",
"position" : 0
},
{
"token" : "share",
"start_offset" : 5,
"end_offset" : 10,
"type" : "word",
"position" : 1
},
{
"token" : "elasticsearch",
"start_offset" : 11,
"end_offset" : 24,
"type" : "word",
"position" : 2
},
{
"token" : "bin",
"start_offset" : 25,
"end_offset" : 28,
"type" : "word",
"position" : 3
}
]
}

"pattern": "/" 같은 단일 기호 외에도 알파벳 대문자를 기준으로 텀을 분리하도록 하는 "pattern": "(?<=\\p{Lower})(?=\\p{Upper})" 와 같은 정규식(Regular Expression) 으로도 설정이 가능합니다.