6.6.1 Lowercase, Uppercase
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민([email protected])에게 사용 내용을 알려주시기 바랍니다.
영어나 유럽어 기반의 텍스트는 대소문자가 있어 검색할 때는 대소문자에 상관 없이검색이 가능하도록 처리 해 주어야 합니다. 보통은 텀 들을 모두 소문자로 변경하여 저장하는데 이 역할을 하는 것이 Lowercase 토큰 필터입니다. Lowercase 토큰 필터는 거의 모든 텍스트 검색 사례에서 사용되는 토큰 필터입니다.
Uppercase 토큰 필터는 모든 텀을 대문자로 변경하는 것 이며 Lowercase 와 동일하게 설정합니다. 다음은 "Harry Potter and the Philosopher's Stone" 문장을 lowercase와 uppercase 로 분석한 예제입니다.
request
response
lowercase 토큰 필터로 문장 분석
1
GET _analyze
2
{
3
"filter": [ "lowercase" ],
4
"text": [ "Harry Potter and the Philosopher's Stone" ]
5
}
Copied!
lowercase 토큰 필터로 문장 분석 결과
1
{
2
"tokens" : [
3
{
4
"token" : "harry potter and the philosopher's stone",
5
"start_offset" : 0,
6
"end_offset" : 40,
7
"type" : "word",
8
"position" : 0
9
}
10
]
11
}
Copied!
request
response
uppercase 토큰 필터로 문장 분석
1
GET _analyze
2
{
3
"filter": [ "uppercase" ],
4
"text": [ "Harry Potter and the Philosopher's Stone" ]
5
}
Copied!
uppercase 토큰 필터로 문장 분석 결과
1
{
2
"tokens" : [
3
{
4
"token" : "HARRY POTTER AND THE PHILOSOPHER'S STONE",
5
"start_offset" : 0,
6
"end_offset" : 40,
7
"type" : "word",
8
"position" : 0
9
}
10
]
11
}
Copied!
Copy link