프론트 개발 블로그

웹 크롤링, 웹 스크래핑 차이 본문

Works

웹 크롤링, 웹 스크래핑 차이

maybe.b50 2022. 3. 15. 23:57

웹 크롤링(Web Crawling)

웹사이트, 하이퍼링크, 데이터, 정보 자원을 자동화 방법으로 수집, 분류, 저장 하는 것.

여러 웹 페이지를 돌아다니면서 어떤 데이터가 어디에 있는 지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할

크롤링 기술이 악용이 될 수 있는데, Meta 태그의 noindex 를 사용하여 크롤러로 검색 색인 되는 것을 방지할 수 있다.

 

웹 스크래핑 (Web Scraping)

웹 페이지에서 나타나는 데이터 중에 필요한 데이터만 추출하도록 만들어진 프로그램이다.

은행권에서 요즘 사용되고 있는 통합계좌조회 등이 웹 스크래핑을 이용한다고 볼 수 있다.

스크래핑 자체를 해킹이나 침해로 분류되지 않지만, 

해킹과 침해 공격의 시초가 될 수가 있음으로 민감한 정보는 일반 공공 인터넷에 노출되지 않아야 하며, 

일부 메타데이터나 백엔드 DB 와의 연결고리도 조심해야한다.

스크래핑의 가장 표준적인 방어책은 요청률 제한(Rate limiting)과 캡챠(CAPTCHA)지만,

웹 스크래핑 행위를 한 단계 더 귀찮고 힘들게 할 뿐이며 완벽한 방어책은 아니다.

 

 

https://terms.naver.com/entry.naver?docId=6470952&cid=42346&categoryId=42346 

https://www.boannews.com/media/view.asp?idx=97305&kind=

반응형