이 예제는 특정 웹페이지에 있는 표 데이터를 자동으로 인식해서 가져오는 코드입니다.
import pandas as pd
import requests
from urllib.parse import quote
# 1. 주소 변환 (한글 주소를 컴퓨터 언어로 변환)
url = "https://ko.wikipedia.org/wiki/" + quote("올림픽_메달_집계")
# 2. 브라우저인 척 위장하기 (User-Agent 설정)
header_info = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'
}
# 3. 사이트에 데이터를 보내달라고 '요청'하기
# (B)는 정답인 headers가 미리 채워져 있습니다.
response = requests.( A )(url, headers=header_info)
# 4. 판다스가 '웹 주소'가 아닌, 이미 받아온 'HTML 글자'를 읽도록 합니다.
# 괄호 안에는 '무엇을' 읽을지(read) 써주어야 합니다.
tables = pd.( B )(response.text)
# 5. 첫 번째 표를 변수에 저장하고 상위 5줄 출력
df = tables[( C )]
print(df.head())
🔎 가로(빈칸) 힌트
- ( A ): 서버로부터 정보를 가져올 때 사용하는 방식입니다. "가져오다"라는 뜻의 영어 단어를 소문자로 써보세요. (힌트: g_ _)
- ( B ): HTML 소스코드 속에 있는 표(<table>)를 읽어오는 판다스의 함수 이름은?
- ( C ): 여러 개의 표 중에서 '첫 번째' 표를 가져오기 위한 인덱스 번호는 무엇일까요?
'Python' 카테고리의 다른 글
| Matplotlib (0) | 2026.01.07 |
|---|---|
| 네이버 뉴스 페이지에서 헤드라인 하나를 가져오는 예시입니다. (0) | 2026.01.07 |
| 📚 실습 2: 신문사 홈피에서 뉴스 목록 만들기 (0) | 2026.01.07 |
| 실습: 뉴스 기사 본문 가져오기 (0) | 2026.01.07 |
| 수료증 만들기 (0) | 2026.01.05 |