菜鸡源码,专注精品下载!
当前位置:首页 > 建站教程 > 建站知识

分享一个小姐姐图片网站的Python爬虫脚本

发布时间:2024-01-05  栏目:建站知识   浏览:   分类:python教程 python爬虫

小姐姐图片网站Python爬虫脚本是一种用于从网站上抓取图片的工具。它可以帮助用户快速获取网站上的图片资源,并将其保存到本地。这种脚本通常使用Python编程语言编写,利用网络爬虫技术来自动访问网站并提取图片链接。然后,它会将这些链接转换为图片文件,并将它们保存到指定的文件夹中。 需要注意的是,在使用这种脚本时,应遵守相关法律法规,尊重网站的版权和隐私政策。此外,还应注意保护个人信息安全,避免泄露个人隐私。

发现一个质量非常不错的高清小姐姐图片网站,当然要收藏起来,用了刚学的python爬虫非常简单,只用了多线程,没有作查重处理。图片保存在J:\xiezhen\文件夹下,可自行修改。

importtimeimportrequestsfromlxmlimportetreeimportosimportconcurrent.futuresdefdownload_image(url,img_path):headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0.3029.110Safari/537.3'}response=requests.get(url,headers=headers)img_name=url.split('/')[-1]withopen(os.path.join(img_path,img_name),'wb')asf:f.write(response.content)print(f'图片:{img_path}'+'/'+f'{img_name}下载完成!')defprocess_page(page):url=f'https://www.xiezhen.xyz/page/{page}'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0.3029.110Safari/537.3'}response=requests.get(url,headers=headers)html=etree.HTML(response.content)mail_url=html.xpath('//div[@class="excerpts"]/article/a/@href')forurlinmail_url:response=requests.get(url,headers=headers)html=etree.HTML(response.content)sub_url=html.xpath('//article/p/img')img_title=html.xpath('//title/text()')[0].split('-')[0]img_path=f'J:/xiezhen/{img_title}'ifnotos.path.exists(img_path):os.makedirs(img_path)withconcurrent.futures.ThreadPoolExecutor()asexecutor:futures=[]fors_urlinsub_url:img_url=s_url.attrib['src']futures.append(executor.submit(download_image,img_url,img_path))forfutureinconcurrent.futures.as_completed(futures):passtime.sleep(0.5)if__name__=='__main__':withconcurrent.futures.ThreadPoolExecutor()asexecutor:futures=[]forpageinrange(1,573):futures.append(executor.submit(process_page,page))forfutureinconcurrent.futures.as_completed(futures):pass


评论
建站知识
建站知识
使用技巧
调试安装
运营推广