728x90
반응형

전체 글

총 381개의 포스트

전체 글(381)

  1. Python - Selenium3 ( 입력 / 클릭)

    서론 지난 포스트를 읽었다면 아래의 과정을 사용할 수 있거나, 사용하는 방법을 익힐 수 있을 겁니다. Web드라이버의 구동 Get요청 작업이 완료될 때까지 적절하게 대기하기 원하는 요소의 정보를 추출하기 그렇다면, 원하는 정보를 추출한 이후에 다시 검색을 하거나, 다음 페이지로 넘어가거나 이런 다양한 제어의 동작을 해야 지만이 크롤러 BOT으로서 조금 더 적합한 녀석이 될 수 있습니다. 본문에서는 Selenium을 통해 이런 제어를 어떻게 하는지 알아보도록 하겠습니다. 클릭하기 -. click() 우선 조금 더 제어를 활용하기 쉽게 현 블로그를 예제로 해도 록 하겠습니다. browser = webdriver.Chrome() browser.get('https://blog-of-gon.tistory.com/..

    2022.05.09

    컴퓨터/Python

    Commnet

  2. Python - Selenium2 ( 대기 )

    서론 지난번에 Python Selenium을 이용해서 웹 브라우저를 구동시키고, 데이터를 추출하는 방법을 알아봤습니다. 사실 다양한 스크래핑, 크롤링을 하는 작업에서 Selenium을 이용하면 브라우저의 형태로 구동하여 데이터를 취득하기 편리한 장점이 있지만 비교적 느린 속도라는 문제 또한 존재합니다. 그리고 이 문제는 빠르게 동작하는 프로그램 환경에서 생각지 못하는 문제가 발생하기도 합니다. 따라서 Selenium을 사용하기 위해서 대기하는 과정을 이해하고 사용하는 방법을 알아보도록 하겠습니다. Python - Selenium (소스 및 요소 접근) 서론 지난 포스트에 이어서 selenium을 통해서 특정 웹페이지에 접근하고 필요한 HTML 소스 및 요소들을 접근하는 방법에 대해서 알아보도록 합시다. ..

    2022.05.09

    컴퓨터/Python

    Commnet

  3. Robots.txt ? (크롤링과 규약)

    서론 Python을 통해 Web에서 여러 데이터를 스크래핑하며 크롤링을 하기 위한 공부를 하던 과정 중 의문점이 하나 생겼다. 다양한 봇에 대한 이슈를 들어왔는데, 과연 프로그램을 이용한 무분별한 Web 데이터를 다루는 것은 문제가 되지 않는가? 이런 BOT들에 대한 문제는 윤리적, 도덕적 문제뿐 아니라, 서비스를 제공에 장애를 방생하는 요인이기도 합니다. 본문에서는 이 Web에서 데이터를 취득하는 프로그램들에 대한 규약을 알아보도록 하겠습니다. 한정적인 서비스 자원 Web은 인터넷을 통해 정보를 취득할 수 있는 오늘날 가장 대표적인 창구 중 하나입니다. 서비스를 제공하는 서버 측에서 다양한 클라이언트의 요청을 처리하는 방식으로 이루어져 있습니다. 손쉽게 정보를 찾고, 취득할 수 있게 되어있죠. 대부분의..

    2022.05.09

    컴퓨터/Python

    Commnet

  4. Python - Selenium (소스 및 요소 접근)

    서론 지난 포스트에 이어서 selenium을 통해서 특정 웹페이지에 접근하고 필요한 HTML 소스 및 요소들을 접근하는 방법에 대해서 알아보도록 합시다. 페이지 소스 보기 - page_source selenium을 통해서 get요청을 한 후 웹 브라우저 드라이버에서 생성된 소스 값을 얻어올 수 있습니다. browser = webdriver.Chrome() browser.get('https://www.tistory.com') print(browser.page_source) 사실, 이 방법만 알고 Beautifulsoup을 같이 사용한다면 요소에 쉽게 접근하는 것이 가능합니다. 하지만, selenium에서 자체적으로 소스의 요소에 접근할 수 있기 때문에 본문에서는 그 방법을 알아보도록 하겠습니다. 요소에 접..

    2022.05.06

    컴퓨터/Python

    Commnet

  5. Python - Selenium 맛보기 (동적 웹 페이지 크롤링)

    서론 Python에서 Web의 데이터를 다루는 과정에서 Requests 라이브러리를 사용하는 방법은 한정적입니다. 특정 url에서 요청하여 이미 만들어진 HTML 문서를 가지고 와서 다루는 작용을 하기 때문입니다. 만약 javascript 등 다양한 방식으로 동적인 웹페이지를 다루기 위해서는 상당히 많은 제약조건이 발생합니다. 그래서 많은 개발자들은 사람이 크롬, 에지 등 웹브라우저를 작동하는 것처럼 Python에서 웹 브라우저를 작동하는 프로그램을 만들게 되었습니다. 이게 바로 selenium입니다. 본 문에서는 이 selenium에 대해 간략하게 알아보도록 하겠습니다. 이후 구동하고 본격적인 내용은 다른 포스트에서 다루도록 하겠습니다. 준비 Selenium을 사용하기 위해서는 2가지가 필요합니다. S..

    2022.05.04

    컴퓨터/Python

    Commnet

  6. Python - Beautifulsoup 사용 법 및 예제

    서론 Python의 라이브러리 패키지인 BeautifulSoup은 Python에서 이용하여 HTML, XML 등의 문서를 손쉽게 활용할 수 있도록 도와줍니다. HTML, XML 등의 문서를 Python에서 탐색, 삽입, 수정, 추출 등을 할 수 있는 기능이 있습니다. 다양한 분야에서 활용할 수 있으며, requests, selenium를 이용하거나 직접 HTML을 가지고 와서 Python내에서 동작할 때 아주 효과적입니다. (물론 직접 구현아는 것이 구동 속도는 빠를 수 있습니다.) 본문에서는 BeautifulSoup에 대하여 전반적인 내용을 살펴보고 HTML을 다루는 방법에 대해서 알아보도록 하겠습니다. Web 크롤링을 위해서 사용하기 위한 태그들을 검색하고 추출하는 방법만을 다루도록 하겠습니다. 더 ..

    2022.05.03

    컴퓨터/Python

    Commnet

G91개발일지

Gon91(지구일)

91년생 공학엔지니어의 개발일지

TODAY :

YESTER DAY :

TOTAL :

1 ··· 13 14 15 16 17 18 19 ··· 64
728x90
반응형