모바일 개발이나 각종 사이트를 처리할 때 HTML 페이지를 가져와서 분석하는 경우가 종종 있습니다. 보통 HTML 파싱할 때 정규식을 이용해서 했었는데요. 단점이 태그와 같은 것이 중첩되어 있을 경우, 첫번째 태그까지만 찾게 되는 것이었습니다. 아무래도 정규식 자체가 문자열 매칭이기 때문에 한계가 있는 것 같구요. 결국 DOM과 같은 구조를 사용하지 않으면 안될 것 같다는 생각이 들었습니다. 예전에 Javascript에서 쓸 수 있는 HTML Parser도 한번 소개한 적이 있기는 한데요. 오늘은 Java에서 활용할 수 있는 HTML Parser인 jsoup에 대해서 이야기 해보려고 합니다. jsoup: Java HTML Parserjsoup은 실제 사용하는 HTML을 처리할 수 있는 자바 라이브러리인데..
Javascript에서 HTML을 파싱할 때 사용할 수 있는 라이브러리라고 합니다. http://ejohn.org/blog/pure-javascript-html-parser/ 에 방문해 보면 Pure JavaScript Html Parser라고 나와있네요.. 간단한 소스 설명도 되어 있습니다. http://ejohn.org/apps/htmlparser/ 에서 테스트를 할 수 있는데요.. 대략 테스트해보니.. XML형태로 제대로 만들어주네요~ 나중에 유용하게 사용할 수 있을 것 같습니다. htmlparser.js 파일은 http://ejohn.org/files/htmlparser.js 에서 다운로드 하세요.. js 소스도 한번 보세요.. 300줄 밖에 안되는데요.. 정규식이랑 아주 지대로 쓴것 같네요~ 혹..
- Total
- Today
- Yesterday
- 웹
- HTML
- SCORM
- 통계
- 모바일
- 마케팅
- XML
- 아이폰
- 디자인
- 안드로이드
- 하둡
- 맥
- 클라우드
- 세미나
- mysql
- 자바스크립트
- 책
- r
- Hadoop
- 자바
- ms
- 빅데이터
- 분석
- java
- 구글
- 애플
- 도서
- 프로젝트
- fingra.ph
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |