데이터 분석/웹 크롤링
[이론] 웹 크롤링
toraa
2025. 1. 20. 10:28
웹 크롤링 : 웹 페이지에서 텍스트 데이터를 자동으로 수집
잘하면 어필이 가능한 기술!
웹페이지에 대한 소스가 어려운 편
컴퓨터가 자동으로 수집하기 때문에 정보를 지속적으로 모을 수 있음
직접 데이터 패턴 추출하는 과정이 필요
과정
- 목표 설정
- HTML 분석
- 요청 및 응답 처리 : 웹을 실행시키고 필요한 매크로 방식으로 데이터 노출시키는 작업
- 데이터 추출 : 필요한 데이터만 파싱, 저장
- 저장 및 활용
주의
- 법적 이슈를 피하기 위해 서비스 약관 준수
( 특히 이미지 크롤링하여 상업적 이용 주의)
- robots.txt를 확인하여 크롤링 허용 여부 확인
- 과도 요청으로 인한 ip 차단 주의 (서버 부하)
→ 적절한 딜레이 설정 필요
크롤링도 파이썬에서 진행
Selenium API
웹사이트의 동적인 상호작용에 대해 직접적 처리 가능
브라우저 자동화
동적 요소 처리
클릭, 입력, 스크롤 등 동작
pip로 해당 sellenium 패키지 설치
!pip install selenium
최신 크롬 이용시 웹드라이버 설치할 필요x