정규식을 활용해 Java에서 HTML 태그를 제거하는 소스 구현하기~
HTML 태그를 제거하고 순수하게 텍스트만 가져오는 부분이 필요해서 관련 소스를 정리해봤습니다. 정규식에 대해서는 개념은 들어보셨을 겁니다. 나중에 기회가 되면 정규식에 대해서도 한번 정리해 보도록 하구요.. 오늘은 간단하게 원하는 기능을 구현한 소스를 보여드리도록 하겠습니다. 정규식을 6개 정도 적용하고 있는 간단한 소스입니다. 각각 HTML의 스크립트 태그와 내용, 스타일 및 내용, 태그들, 엔터티, 공백문자들을 제거하는 정규식 표현입니다. private String getText(String content) { Pattern SCRIPTS = Pattern.compile("]*>.*?",Pattern.DOTALL); Pattern STYLE = Pattern.compile("",Pattern.DOT..
프로그래밍/Java
2011. 10. 8. 02:46