728x90
반응형

jsoup 라이브러리를 사용하여, 특정 홈페이지(웹페이지)내에 존재하는 links를 헤아려보는 샘플 프로그램을 작성 및 수행해 보았습니다.

 

jsoup은 1.16.2 버전을 사용하였습니다.

<dependency>
			<!-- jsoup HTML parser library @ https://jsoup.org/ -->
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.16.2</version>
</dependency>

 

Text Console 프로그램을 아래와 같이 작성해 보았습니다.

package kr.pe.speech.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

import java.io.IOException;

@SpringBootApplication
public class JsoupApplication {

	public static void main(String[] args) throws IOException {
		Validate.isTrue(args.length == 1, "Usage: supply url to fetch");


		String url = args[0];
		print("Fetching %s...", url);

		Document doc = Jsoup.connect(url).get();
		Elements links = doc.select("a[href]");
		Elements media = doc.select("[src]");
		Elements imports = doc.select("link[href]");

		print("\nLinks: (%d)", links.size());
		for (Element link : links) {
			print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
		}
	}

	private static void print (String msg, Object...args){
		System.out.println(String.format(msg, args));
	}

	private static String trim (String s,int width){
		if (s.length() > width)
			return s.substring(0, width - 1) + "...";
		else
			return s;
	}
}

 

 

 

 

 

출력결과는 아래와 같습니다.

  • 프로그램 코드가 간력합니다
  • 수행속도가 타 라이브러리보다 엄청 빠릅니다.
  • API Method가 간단 명료한 느낌입니다.
  • 중복된 URL을 출력합니다.   

 

 

Fetching http://speech.pe.kr...

Links: (37)
 * a: <http://speech.pe.kr#site-content>  (Skip to the content)
 * a: <http://speech.pe.kr/>  (speech voice AI)
 * a: <http://speech.pe.kr/>  (홈)
 * a: <http://speech.pe.kr/%ec%86%8c%ea%b0%9c/>  (소개)
 * a: <http://speech.pe.kr/%eb%b8%94%eb%a1%9c%ea%b7%b8/>  (블로그)
 * a: <http://speech.pe.kr/%eb%ac%b8%ec%9d%98/>  (문의)
 * a: <http://speech.pe.kr/plans/>  (Plans)
 * a: <http://speech.pe.kr#weglot_switcher>  (Weglot Switcher)
 * a: <http://speech.pe.kr/>  (홈)
 * a: <http://speech.pe.kr/%ec%86%8c%ea%b0%9c/>  (소개)
 * a: <http://speech.pe.kr/%eb%b8%94%eb%a1%9c%ea%b7%b8/>  (블로그)
 * a: <http://speech.pe.kr/%eb%ac%b8%ec%9d%98/>  (문의)
 * a: <http://speech.pe.kr/>  (홈)
 * a: <http://speech.pe.kr/%ec%86%8c%ea%b0%9c/>  (소개)
 * a: <http://speech.pe.kr/%eb%b8%94%eb%a1%9c%ea%b7%b8/>  (블로그)
 * a: <http://speech.pe.kr/%eb%ac%b8%ec%9d%98/>  (문의)
 * a: <http://speech.pe.kr/plans/>  (Plans)
 * a: <http://speech.pe.kr#weglot_switcher>  (Weglot Switcher)
 * a: <https://www.yelp.com>  (옐프)
 * a: <https://www.facebook.com/wordpress>  (페이스북)
 * a: <https://twitter.com/wordpress>  (트위터)
 * a: <https://www.instagram.com/explore/tags/wordcamp/>  (인스타그램)
 * a: <mailto:wordpress@example.com>  (이메일)
 * a: <http://speech.pe.kr#post-inner>  (Scroll Down)
 * a: <https://make.wordpress.org/core/2019/09/27/block-editor-theme-related-updates-in-wordpress-5-3/>  (Read More)
 * a: <https://make.wordpress.org/core/2019/09/27/block-editor-theme-related-updates-in-wordpress-5-3/>  (Read More)
 * a: <https://make.wordpress.org/core/2019/09/27/block-editor-theme-related-updates-in-wordpress-5-3/>  (Read More)
 * a: <https://make.wordpress.org/core/2019/09/27/block-editor-theme-related-updates-in-wordpress-5-3/>  (Read More)
 * a: <https://make.wordpress.org/core/2019/09/27/block-editor-theme-related-updates-in-wordpress-5-3/>  (Join the Club)
 * a: <https://www.yelp.com>  (옐프)
 * a: <https://www.facebook.com/wordpress>  (페이스북)
 * a: <https://twitter.com/wordpress>  (트위터)
 * a: <https://www.instagram.com/explore/tags/wordcamp/>  (인스타그램)
 * a: <mailto:wordpress@example.com>  (이메일)
 * a: <http://speech.pe.kr/>  (speech voice AI)
 * a: <https://wordpress.org/>  (Powered by WordPress)
 * a: <http://speech.pe.kr#site-header>  (To the top ↑ Up ↑)


728x90
반응형
728x90
반응형

보통 웹에서 데이터를 긁어오는 것을 웹크롤러라고 하는데, 

기술상에서 영문표현은 확실히 구분을 하고 있습니다.

사실 웹상에서 데이터를 긁어오는 것은 Web Scraper에 더 가깝습니다.

 

Web Scraper는 데이터 마이닝도구로서, 웹페이지를 찾아다니면서 특정한 데이터를 페이지로부터 '추출'하는 것을 지칭합니다.

한편 Web Crawler는 웹에 있는 링크 정보나 URL을 찾아내는 것입니다.

즉 찾아내는 대상이  링크 또는 URL인지 아니면  특정 데이터를 추출하는 것인지에 따라 구분되는 것 같습니다.

 

웹 크롤러는 첫(root)페이지에서 시작하여  하이퍼링크나 URL들을 찾은 후에, 리스트로 저장해  다음에 방문할 목록 대상으로 저장합니다. 첫 페이지 이후에  과정을 반복합니다.  특정한 조건이 없으면 무한반복(indefinitely)하게 되겠죠.

 

사용 사례를 보면, 국외는 조금 특이한 사례도 있습니다.

제품정보 추출(Fetch product data) : 경쟁사 웹페이지에서 가격 정보 등을 가져옵니다. 관련된 도구로는 Octoparse  Puppeteer 가 있습니다.

 

WebCrawler 중 crawler4j를 'A Guide to Crawler4j'의 웹페이지(https://www.baeldung.com/crawler4j)를 참조하여 구현해보니, 최종 출력은

으로,   URL 값과 해당 URL의 제목, 내용(text 또는 html 형태)과  해당 페이지에 존재하는 links의 수의 정보입니다.

내용에 대해 섬세하게 접근하여 가공처리하는 용도로 사용하기에는 조금 부족한 도구입니다. 

참조로 해당 도구의 github( https://github.com/yasserg/crawler4j )는 2020년 10월 4일 이후에 중단된 것으로 보이며, 라이선스도 Apache 2.0 license입니다.

 

WebScraper 로는 'jsoup'이 적합해 보입니다.  MIT license이고, 여전히 개발 중이어서 업데이트되고 있습니다.(https://github.com/jhy/jsoup/)

 

 

 

 

 

 

 

728x90
반응형

+ Recent posts