모바일 개발이나 각종 사이트를 처리할 때 HTML 페이지를 가져와서 분석하는 경우가 종종 있습니다. 보통 HTML 파싱할 때 정규식을 이용해서 했었는데요. 단점이 태그와 같은 것이 중첩되어 있을 경우, 첫번째 태그까지만 찾게 되는 것이었습니다. 아무래도 정규식 자체가 문자열 매칭이기 때문에 한계가 있는 것 같구요. 결국 DOM과 같은 구조를 사용하지 않으면 안될 것 같다는 생각이 들었습니다. 예전에 Javascript에서 쓸 수 있는 HTML Parser도 한번 소개한 적이 있기는 한데요. 오늘은 Java에서 활용할 수 있는 HTML Parser인 jsoup에 대해서 이야기 해보려고 합니다. jsoup: Java HTML Parserjsoup은 실제 사용하는 HTML을 처리할 수 있는 자바 라이브러리인데..
Javascript에서 HTML을 파싱할 때 사용할 수 있는 라이브러리라고 합니다. http://ejohn.org/blog/pure-javascript-html-parser/ 에 방문해 보면 Pure JavaScript Html Parser라고 나와있네요.. 간단한 소스 설명도 되어 있습니다. http://ejohn.org/apps/htmlparser/ 에서 테스트를 할 수 있는데요.. 대략 테스트해보니.. XML형태로 제대로 만들어주네요~ 나중에 유용하게 사용할 수 있을 것 같습니다. htmlparser.js 파일은 http://ejohn.org/files/htmlparser.js 에서 다운로드 하세요.. js 소스도 한번 보세요.. 300줄 밖에 안되는데요.. 정규식이랑 아주 지대로 쓴것 같네요~ 혹..