stopwords
항목에 불용어로 지정할 단어들을 배열 형태로 나열하거나 "_english_"
, "_german_"
같이 언어를 지정해서 해당 언어팩에 있는 불용어를 지정할 수도 있습니다. 지원되는 언어팩은 공식 도큐먼트에서 확인할 수 있으며 한, 중, 일어 등은 별도의 형태소 분석기를 사용해야 합니다. 불용어 목록을 별도의 텍스트 파일로 저장하고 저장된 파일 경로를 stopwords_path
항목의 값으로 지정하여 사용하는 것도 가능합니다.stop
토큰필터를 정의하고 lowercase
필터와 함께 "Around the World in Eighty Days" 문장을 분석 하는 예제입니다.