데이터 분석/웹 크롤링

[이론] 웹 크롤링

toraa 2025. 1. 20. 10:28

웹 크롤링 : 웹 페이지에서 텍스트 데이터를 자동으로 수집

 

잘하면 어필이 가능한 기술!

웹페이지에 대한 소스가 어려운 편

 

컴퓨터가 자동으로 수집하기 때문에 정보를 지속적으로 모을 수 있음

직접 데이터 패턴 추출하는 과정이 필요

 

과정

- 목표 설정

- HTML 분석

- 요청 및 응답 처리 : 웹을 실행시키고 필요한 매크로 방식으로 데이터 노출시키는 작업

- 데이터 추출 : 필요한 데이터만 파싱, 저장

- 저장 및 활용

 

주의

- 법적 이슈를 피하기 위해 서비스 약관 준수

( 특히 이미지 크롤링하여 상업적 이용 주의)

- robots.txt를 확인하여 크롤링 허용 여부 확인

- 과도 요청으로 인한 ip 차단 주의 (서버 부하)

→ 적절한 딜레이 설정 필요


크롤링도 파이썬에서 진행

 

Selenium API

웹사이트의 동적인 상호작용에 대해 직접적 처리 가능

 

브라우저 자동화

동적 요소 처리

클릭, 입력, 스크롤 등 동작

 

pip로 해당 sellenium 패키지 설치

!pip install selenium

최신 크롬 이용시 웹드라이버 설치할 필요x