Python爬虫:基础请求与反爬策略示例
在Python爬虫中,我们通常需要处理两个主要部分:基础请求和反爬策略。
基础请求(Making Requests):
requests
模块是进行网络请求的首选库。
```python
import requests
发送GET请求
response = requests.get(‘http://example.com‘)
检查响应状态码
if response.status_code == 200:
print('Request successful.')
content = response.text # 获取网页内容
# 然后你可以对content进行处理
else:
print(f'Request failed with status code {response.status_code}}')
```
反爬策略(Anti-Crawling Measures):
- 设置User-Agent:每个网站对User-Agent的检查是不同的,通过设置不同的User-Agent,可以更好地避免被识别。
```python
import requests
设置User-Agent
headers = {‘User-Agent’: ‘Mozilla/5.0’}
response = requests.get(‘http://example.com‘, headers=headers)
if response.status_code == 200:
print('Request successful.')
content = response.text
# 进行内容处理
else:
print(f'Request failed with status code {response.status_code}}')
```
- 设置User-Agent:每个网站对User-Agent的检查是不同的,通过设置不同的User-Agent,可以更好地避免被识别。
以上就是Python爬虫基础请求与反爬策略的示例。
还没有评论,来说两句吧...