다음 책을 참고하면 된다.
www.py4e.com/translations/KO/book_009_ko.pdf
py4e 교재의 한국어 번역판이다.
12.3 웹크롤링 문제가 너무 궁금했는데 코세라 구독을 안 하면 문제조차 볼 수 없었다.
하지만 책에는 다 있었다...!!
Exercise 12.1 소켓 프로그램 socket1.py을 변경하여 임의 웹페이지를 읽을 수
있도록 URL을 사용자가 입력하도록 바꾸세요. split(’/’)을 사용하여 URL을
컴포턴트로 쪼개서 소켓 connect 호출에 대해 호스트 명을 추출할 수 있다. 사
용자가 적절하지 못한 형식 혹은 존재하지 않는 URL을 입력하는 경우를 처리할
있도록 try, except를 사용하여 오류 검사기능을 추가하세요.
Exercise 12.2 소켓 프로그램을 변경하여 전송받은 문자를 계수(count)하고
3000 문자를 출력한 후에 그이상 텍스트 출력을 멈추게 하세요. 프로그램은 전
체 문서를 가져와야 하고, 전체 문자를 계수(count)하고, 문서 마지막에 문자
계수(count)결과를 출력해야 합니다.
Exercise 12.3 urllib을 사용하여 이전 예제를 반복하세요. (1) 사용자가 입력
한 URL에서 문서 가져오기 (2) 3000 문자까지 화면에 보여주기 (3) 문서의 전체
문자 계수(count)하기. 이 연습문제에서 헤더에 대해서는 걱정하지 말고, 단지
문서 본문에서 첫 3000 문자만 화면에 출력하세요.
Exercise 12.4 urllinks.py 프로그램을 변경하여 가져온 HTML 문서에서 문
단 (p) 태그를 추출하고 프로그램의 출력물로 문단을 계수(count)하고 화면에
출력하세요. 문단 텍스트를 화면에 출력하지 말고 단지 숫자만 셉니다. 작성한
프로그램을 작은 웹페이지 뿐만 아니라 조금 큰 웹 페이지에도 테스트해 보세요.
Exercise 12.5 (고급) 소켓 프로그램을 변경하여 헤더와 빈 라인 다음에 데이터
만 보여지게 하세요. recv는 라인이 아니라 문자(새줄(newline)과 모든 문자)를
전송받는다는 것을 기억하세요.
번역하신 분 성함이 이광춘이다. 그래서 utf-8 관련 챕터에서 이광춘씨 이름이 나온 거였군...!
'개발 > Python' 카테고리의 다른 글
Enumerate 함수 (0) | 2021.01.09 |
---|---|
파이썬 =, == 차이 (0) | 2020.12.20 |
파이썬 정규식 정리 (0) | 2020.12.04 |
파이참에서 32bit, 64bit 가상환경 설정 후 손쉽게 interpreter 바꾸기 (0) | 2020.12.04 |
py4e 9.4 who has sent the greatest number of mail messages? (0) | 2020.11.29 |