웹 페이지를 크롤링하기 전에 크롤링 허용 여부를 확인하는 작업이 필요하다.
방법
주소 창에 '크롤링할 주소/robots.txt' 를 입력
만약 robots.txt 파일이 없다면 수집에 대한 정책이 없으므로 크롤링 해도 된다는 뜻 !
membership + /myHollys 경로 제외 모든 접근 허용
'Python' 카테고리의 다른 글
[Python] module 'tensorflow' has no attribute 'placeholder' 에러 해결법 (0) | 2022.02.09 |
---|---|
Python 으로 정적 웹 페이지 크롤링( 뉴스 검색하기 ) # 3 (0) | 2022.02.08 |
Jupyter Notebook 에서 !pip install wordcloud 설치 에러 해결법 (0) | 2022.02.08 |
[Python] pip install wordcloud whl 파일 설치 에러 ( ... is not a supported wheel on this platform. ) (0) | 2022.02.08 |
Python 으로 공공 데이터 API을 이용한 크롤링( 코로나 확진자 알아보기 ) # 1 (0) | 2022.02.07 |