728x90
반응형

Crawler4j 라는 프로그램을 사용 중입니다.

텍스트 데이터나 이미지 데이터를 수집하는 용도는 아니고요. 다른 특별한 용도로 사용 예정입니다.

 

원천 소스코드는 아래 URL에서 확인할 수 있습니다.

https://github.com/yasserg/crawler4j/ 

 

특정사이트에서 전파/확장하는 스케일을 어느 정도까지 할지?  즉, 타도타기의 깊이를 제한하는 용도입니다.

 

By default there is no limit on the depth of crawling. But you can limit the depth of crawling. For example, assume that you have a seed page "A", which links to "B", which links to "C", which links to "D". So, we have the following link structure:

A -> B -> C -> D

Since, "A" is a seed page, it will have a depth of 0. "B" will have depth of 1 and so on. You can set a limit on the depth of pages that crawler4j crawls. For example, if you set this limit to 2, it won't crawl page "D". 

728x90
반응형

+ Recent posts