웹 크롤링, 웹 스크래핑 차이

Notice

Recent Posts

Tags more

Archives

관리 메뉴

프론트 개발 블로그

Works

maybe.b50 2022. 3. 15. 23:57

웹사이트, 하이퍼링크, 데이터, 정보 자원을 자동화 방법으로 수집, 분류, 저장 하는 것.

여러 웹 페이지를 돌아다니면서 어떤 데이터가 어디에 있는 지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할

크롤링 기술이 악용이 될 수 있는데, Meta 태그의 noindex 를 사용하여 크롤러로 검색 색인 되는 것을 방지할 수 있다.

웹 페이지에서 나타나는 데이터 중에 필요한 데이터만 추출하도록 만들어진 프로그램이다.

은행권에서 요즘 사용되고 있는 통합계좌조회 등이 웹 스크래핑을 이용한다고 볼 수 있다.

스크래핑 자체를 해킹이나 침해로 분류되지 않지만,

해킹과 침해 공격의 시초가 될 수가 있음으로 민감한 정보는 일반 공공 인터넷에 노출되지 않아야 하며,

일부 메타데이터나 백엔드 DB 와의 연결고리도 조심해야한다.

스크래핑의 가장 표준적인 방어책은 요청률 제한(Rate limiting)과 캡챠(CAPTCHA)지만,

웹 스크래핑 행위를 한 단계 더 귀찮고 힘들게 할 뿐이며 완벽한 방어책은 아니다.

https://www.boannews.com/media/view.asp?idx=97305&kind=

Publishing Boilerplate : Pug (0)	2022.05.09
Notion에서 마인드맵 사용하기 : 윔지컬(whimsical) (0)	2022.05.06
[IOS/Iphone] iOS 에서 키패드 노출 시 하단에 고정시킨 버튼 움직이는 현상 (0)	2022.03.04
[트래킹] GA, GTM, UTM, Facebook Pixel, Kakao Pixel (0)	2021.08.10
[Task Runner] Gulp 셋팅 (0)	2021.07.01

'Works' Related Articles