python爬取西刺的可用代理 | Bm和弦的技术博客

西刺代理
在使用python爬取网络数据时，网络需要设置代理服务器，防止目标网站对IP的限制。网站实现了众多可以使用的代理服务器，这里写了一个爬虫，爬取其中国内高匿代理IP。

通过代码把ip、端口爬到本地

import os
import time
import selenium.webdriver as web

url = 'https://www.xicidaili.com/nn/'


def start_chrome():
    _driver = web.Chrome('D:/pythonprojects/PythonTrain01/chromedriver.exe')
    _driver.start_client()
    return _driver


def get_ip():
    ips = []
    td_sel = '#ip_list > tbody > tr'
    tds = driver.find_elements_by_css_selector(td_sel)
    for td in tds[1:]:
        ip_sel = 'td:nth-child(2)'
        port_sel = 'td:nth-child(3)'
        ip = td.find_element_by_css_selector(ip_sel).text
        port = td.find_element_by_css_selector(port_sel).text
        ips.append(f'{ip} : {port}')
    return ips


def save(ips):
    ips = '\n'.join(ips) + '\n'
    if os.path.exists('proxy.txt'):
        with open('proxy.txt', 'a') as f:
            f.write(ips)
    else:
        with open('proxy.txt', 'w+') as f:
            f.write(ips)


def find_next():
    for i in range(1, 5):
        driver.get(url + str(i))
        time.sleep(3)
        save(get_ip())
        print(f'获取第{i}页数据')


driver = start_chrome()
find_next()

通过花刺筛选可用的代理

使用方法：导入 -> 验证全部 -> 清除