6.4.1 HTML Strip
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민([email protected])에게 사용 내용을 알려주시기 바랍니다.
입력된 텍스트가 HTML 인 경우 HTML 태그들을 제거하여 일반 텍스트로 만듭니다.
<>
로 된 태그를 제거할 뿐 아니라
같은 HTML 문법 용어들도 해석합니다. 입력 값은 html_strip
입니다. 다음은 HTML Strip 캐릭터 필터를 이용해서
<p>I'm so <b>happy</b>!</p>
문장을 처리 한 결과입니다.request
response
char_filter 를 이용해서 html 문장 처리
POST _analyze
{
"tokenizer": "keyword",
"char_filter": [
"html_strip"
],
"text": "<p>I'm so <b>happy</b>!</p>"
}
char_filter 를 이용해서 html 문장 처리 결과
{
"tokens" : [
{
"token" : """
I'm so happy!
""",
"start_offset" : 0,
"end_offset" : 32,
"type" : "word",
"position" : 0
}
]
}
모든 태그들이 제거되고 해석되어 "I'm so happy!" 라는 문장으로 변경 된 것을 확인할 수 있습니다.
애널라이저는 항상 최소 1개의 토크나이저를 필요로 하기 때문에 캐릭터 필터만 적용하면 오류가 발생합니다. 위 예제에서는 keyword 토크나이저를 같이 사용했습니다.
Last modified 4yr ago