capstone design : Web Crawling4 python 동작 원리 알아보기 python의 동작 원리 인터프리터 언어와 컴파일 언어의 차이점을 알아야한다. 인터프리터 언어 : 1. 고급언어를 기계어로 변환하는 과정 없이 한줄 한줄 해석해서 바로 명령어를 실행하는 언어 2. 기계어로 변환하지 않기 떄문에 빌드 과정 없이 바로 실행 가능 3. 런타임 상황에서는 한 줄씩 읽기 때문에 컴파일 언어에 비해 느리다. 4. 수정이 간단하다.(순서만 잘 맞추면 된다) 만약 함수를 실행시키고 싶다면 함수를 먼저 작성하고 실행을 해야만 오류가 나오지 않는다. java의 경우 컴파일 언어이기 때문에 함수를 나중에 선언하더라도 언제든 불러서 사용할 수 있다. 컴파일 언어: 1. 고급언어를 모두 기계어로 변환 후 코드 실행 2. 빌드 과정에서 인터프리터보다 시간 소요 3. 런타임 상황에서는 이미 소스코.. 2022. 10. 5. 캡스톤 과제 관련 2주차 정리 보호되어 있는 글 입니다. 2022. 10. 5. web crawling 처음으로 돌아가보기 1. web crawling과 web scraping 차이점 알기 --> 어떻게 보면 crawling을 조금 더 제약조건을 걸어서 하는 것이 scraping이라고 생각하면 된다. web crawling은 웹페이지에 있는 데이터를 모두 단순하게 긁어오는 것이지만 scraping의 경우는 다양한 소스에서 특정 데이터를 추출하는 것이 목적이기 때문이다. 그리고 목표 대상이 web crawling의 경우는 웹페이지라고 한정적이지만 scraping은 다양한 소스 모두를 목표로 할 수 있다는 점에서 차이점이 존재한다. 웹 크롤링의 경우는 방대한 양의 정보를 수집하는 것에 목적이 있다고 하면 웹 스크래핑의 경우에는 특정 사이트나 페이지에 대한 정보를 찾는데 집중하므로 확실한 정보를 수집하는 것에 목적이 있다. (우리.. 2022. 10. 5. 01. web crawling(inflearn 강의) 0. 웹 크롤링전에 알아야 할 점? -크롤링 왜 쓰냐? -> 남들의 시간을 절약시켜 줄 수 있다. - 남의 사이트의 허락을 받지않고 크롤링 하는 것이므로 남의 사이트에 무리가 가지 않도록 해야한다. (대상 서버의 traffic 초과 문제가 생길 수 있기 때문이다.) - 로봇 배제 표준(robots.txt)에 기술된 것을 지켜야 한다. -> 사이트 url뒤에 robots.txt를 더해서 허락하는 범위를 확인한다. - 웹의 동작 방식을 기본적으로 알아야 한다.(클라이언트 서버) -> HTTP 통신규약을 지키면서 요청과 응답이 이루어지는 것이 웹 동작의 기본이다. - 프론트의 기본 문법에 대해 대략 알아야 한다.(HTML, CSS, JAVASCRIPT 구조) (크롤링을 하기 위해서는 대략적인 구조를 알아야 하.. 2022. 9. 26. 이전 1 다음