6.4.1 HTML Strip

이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(kimjmin@gmail.com)에게 사용 내용을 알려주시기 바랍니다.

입력된 텍스트가 HTML 인 경우 HTML 태그들을 제거하여 일반 텍스트로 만듭니다. <>로 된 태그를 제거할 뿐 아니라 &nbsp; 같은 HTML 문법 용어들도 해석합니다. 입력 값은 html_strip 입니다.

다음은 HTML Strip 캐릭터 필터를 이용해서 <p>I&apos;m so <b>happy</b>!</p> 문장을 처리 한 결과입니다.

request
response
request
char_filter 를 이용해서 html 문장 처리
POST _analyze
{
"tokenizer": "keyword",
"char_filter": [
"html_strip"
],
"text": "<p>I&apos;m so <b>happy</b>!</p>"
}
response
char_filter 를 이용해서 html 문장 처리 결과
{
"tokens" : [
{
"token" : """
I'm so happy!
""",
"start_offset" : 0,
"end_offset" : 32,
"type" : "word",
"position" : 0
}
]
}

모든 태그들이 제거되고 해석되어 "I'm so happy!" 라는 문장으로 변경 된 것을 확인할 수 있습니다.

애널라이저는 항상 최소 1개의 토크나이저를 필요로 하기 때문에 캐릭터 필터만 적용하면 오류가 발생합니다. 위 예제에서는 keyword 토크나이저를 같이 사용했습니다.