西刺代理
在使用python爬取网络数据时,网络需要设置代理服务器,防止目标网站对IP的限制。网站实现了众多可以使用的代理服务器,这里写了一个爬虫,爬取其中 国内高匿代理IP。

通过代码把ip、端口爬到本地

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
import os
import time
import selenium.webdriver as web

url = 'https://www.xicidaili.com/nn/'


def start_chrome():
_driver = web.Chrome('D:/pythonprojects/PythonTrain01/chromedriver.exe')
_driver.start_client()
return _driver


def get_ip():
ips = []
td_sel = '#ip_list > tbody > tr'
tds = driver.find_elements_by_css_selector(td_sel)
for td in tds[1:]:
ip_sel = 'td:nth-child(2)'
port_sel = 'td:nth-child(3)'
ip = td.find_element_by_css_selector(ip_sel).text
port = td.find_element_by_css_selector(port_sel).text
ips.append(f'{ip} : {port}')
return ips


def save(ips):
ips = '\n'.join(ips) + '\n'
if os.path.exists('proxy.txt'):
with open('proxy.txt', 'a') as f:
f.write(ips)
else:
with open('proxy.txt', 'w+') as f:
f.write(ips)


def find_next():
for i in range(1, 5):
driver.get(url + str(i))
time.sleep(3)
save(get_ip())
print(f'获取第{i}页数据')


driver = start_chrome()
find_next()

通过花刺筛选可用的代理

花刺

花刺

使用方法:导入 -> 验证全部 -> 清除