6.4.1 HTML Strip
이 문서의 허가되지 않은 무단 복제나 배포 및 출판을 금지합니다. 본 문서의 내용 및 도표 등을 인용하고자 하는 경우 출처를 명시하고 김종민(kimjmin@gmail.com)에게 사용 내용을 알려주시기 바랍니다.
입력된 텍스트가 HTML 인 경우 HTML 태그들을 제거하여 일반 텍스트로 만듭니다. <>
로 된 태그를 제거할 뿐 아니라
같은 HTML 문법 용어들도 해석합니다. 입력 값은 html_strip
입니다.
다음은 HTML Strip 캐릭터 필터를 이용해서 <p>I'm so <b>happy</b>!</p>
문장을 처리 한 결과입니다.
char_filter 를 이용해서 html 문장 처리
모든 태그들이 제거되고 해석되어 "I'm so happy!" 라는 문장으로 변경 된 것을 확인할 수 있습니다.
애널라이저는 항상 최소 1개의 토크나이저를 필요로 하기 때문에 캐릭터 필터만 적용하면 오류가 발생합니다. 위 예제에서는 keyword 토크나이저를 같이 사용했습니다.
Last updated