Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- React
- java
- frontend
- tomcat
- next.js
- VW
- Sass
- JavaScript
- animation
- Adobe
- TaskRunner
- Eclipse
- 보일러플레이트
- ref전달하기
- Eclipse Compare View
- css
- html
- error
- 이클립스 소스 비교 안보일 때
- 정적웹사이트
- 이클립스
- ref
- Eclipse Bug
- Study
- 1분코딩
- npm
- gulp
- CSS3
- SSR
- 자바스크립트
Archives
- Today
- Total
프론트 개발 블로그
웹 크롤링, 웹 스크래핑 차이 본문
웹 크롤링(Web Crawling)
웹사이트, 하이퍼링크, 데이터, 정보 자원을 자동화 방법으로 수집, 분류, 저장 하는 것.
여러 웹 페이지를 돌아다니면서 어떤 데이터가 어디에 있는 지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할
크롤링 기술이 악용이 될 수 있는데, Meta 태그의 noindex 를 사용하여 크롤러로 검색 색인 되는 것을 방지할 수 있다.
웹 스크래핑 (Web Scraping)
웹 페이지에서 나타나는 데이터 중에 필요한 데이터만 추출하도록 만들어진 프로그램이다.
은행권에서 요즘 사용되고 있는 통합계좌조회 등이 웹 스크래핑을 이용한다고 볼 수 있다.
스크래핑 자체를 해킹이나 침해로 분류되지 않지만,
해킹과 침해 공격의 시초가 될 수가 있음으로 민감한 정보는 일반 공공 인터넷에 노출되지 않아야 하며,
일부 메타데이터나 백엔드 DB 와의 연결고리도 조심해야한다.
스크래핑의 가장 표준적인 방어책은 요청률 제한(Rate limiting)과 캡챠(CAPTCHA)지만,
웹 스크래핑 행위를 한 단계 더 귀찮고 힘들게 할 뿐이며 완벽한 방어책은 아니다.
https://terms.naver.com/entry.naver?docId=6470952&cid=42346&categoryId=42346
https://www.boannews.com/media/view.asp?idx=97305&kind=
반응형
'Works' 카테고리의 다른 글
Publishing Boilerplate : Pug (0) | 2022.05.09 |
---|---|
Notion에서 마인드맵 사용하기 : 윔지컬(whimsical) (0) | 2022.05.06 |
[IOS/Iphone] iOS 에서 키패드 노출 시 하단에 고정시킨 버튼 움직이는 현상 (0) | 2022.03.04 |
[트래킹] GA, GTM, UTM, Facebook Pixel, Kakao Pixel (0) | 2021.08.10 |
[Task Runner] Gulp 셋팅 (0) | 2021.07.01 |