Home > PYTHON > Basic > 웹 크롤링

웹 크롤링
python basic

크롤링 #


기본용어 #


스크래핑은 데이터를 수집하는 모든 작업

크롤링은 웹상에 흩어져 있는 데이터를 수집하는 행위

파싱은 웹상에 흩어져 있는 데이터를 선별하여 수집하는 행위

robots.txt #


해당 홈페이지가 크롤링 허용범위의 권고안을 기입해 놓은 파일

User-agent:* : 브라우저 전부 접근 허용
Disallow: /  : 모든 디렉토리 비허용
Allow: /$ : 첫번째 페이지는 허용

HTTP #


HTTP(Hypertext Transfer Protocal)은 서버와 클라이언트가 인터넷상에서 데이터를 주고 받는 프로토콜으로 아래의 작동방식을 가진다.

  • Request : HTTP요청
    • GET : 정보를 요청하기
    • POST : 정보를 입력하기
    • PUT : 정보를 업데이트하기
    • DELETE : 정보를 상제하기
  • Response : HTTP응답

URL은 자원의 위치를 알기위한 프로토콜

parameter는 시스템의 작동에 영향을 주는 데이터

HTML & Tag #


HTML(Hypertext markup language)은 웹페이지를 구조화하기 위한 마크업 언어이다.
Tag는 html에서 사용하는 요소를 의미하고 아래와 같은 태그를 주로 활용한다.

<title> : 브라우저 타이틀
<head> : 문서의 속성을 설정하는 태그
<body> : 브라우저 바디의 최상위
<div> : 기본적인 구분자
<ul>(unordered list) : *으로 구분하는 리스트
<ol>(ordered list) : 숫자로 구분하는 리스트
<li> : 리스트 나열
<table> : 테이블 구조의 기본 형
<tr> : 테이블의 행을 만드는 형식
<td> : 테이블의 열을 만드는 형식

ID & Class #


ID는 일반적으로 고유의 객체를 찾을때 사용된다.
Class는 일반적으로 유사한 객체들을 찾을때 사용(css에서 공통적으로 사용됨)