菜鸡源码,专注精品下载!
当前位置:首页 > 建站教程 > 建站知识

使用Python爬虫下载笔趣阁小说搜索结果的txt文件

发布时间:2024-01-05  栏目:建站知识   浏览:   分类:python教程 python爬虫

笔趣阁小说搜索 txt下载Python爬虫是一种利用Python编程语言编写的网络爬虫程序,用于从笔趣阁网站上搜索并下载小说的txt格式文件。这种爬虫程序通常使用requests库来发送HTTP请求,获取网页内容,然后使用BeautifulSoup库来解析HTML文档,提取所需的信息。最后,将提取到的小说标题、作者和链接等信息保存到本地文件中,以便用户下载阅读。需要注意的是,爬取网站数据可能涉及版权问题,请遵守相关法律法规。

第三方库需求:Faker

安装方法:终端输入pip3 install faker
不安装将相关代码删除自行添加假UA也可使用。

使用方法:下载源码直接运行即可。

功能介绍:一键搜索+下载,下载的txt文件会自动查重,已经存在的不会重复下载浪费时间和存储空间。

文件下载位置:程序执行同目录下会自动创建小说文件夹,每次下载小说都会在里面添加一个以小说书名命名的文件夹,内容分章存储。

#-*-coding:utf-8-*-"""ProjectName:novelAuthor:ARtcgbEmail:artcgb@ebay.onmicrosoft.comDate:2021/4/24"""importosimportrequestsfromfakerimportFakerfrombs4importBeautifulSoupf=Faker()headers={'user-agent':f.user_agent()}whileTrue:search_url="https://www.mibaoge.com/search.php?q="+input("输入要查找的书名:")requests_url=requests.get(search_url,headers=headers)soup_url=BeautifulSoup(requests_url.text,"lxml")search_list=soup_url.find_all("a",cpos="title")ifsearch_list:count=1forsoupinsearch_list:print(count,soup.text.replace("n",""))count+=1breakelse:print("未搜索到相关结果")choose=int(input("请输入所选查找结果前面的数字:"))-1title=soup_url.find_all("a",cpos="title")[choose].text.replace("n","")title_url=soup_url.find_all("a",cpos="title")[choose]["href"]url="https://www.mibaoge.com"+title_urlrequests_url=requests.get(url,headers=headers)soup_url=BeautifulSoup(requests_url.text,"lxml")menu_list=soup_url.find("div",id="list").find_all("a")url_list=[]chapter_list=[]formenuinmenu_list:url_list.append(menu['href'])chapter_list.append(menu.text)print("共找到",len(url_list),"个章节")a=os.path.exists("./小说")b=os.path.exists("./小说/"+title)ifaandb:print("文件夹已存在,PASS")elifa:os.mkdir("./小说/"+title)print("文件夹建立成功")else:os.mkdir("./小说")os.mkdir("./小说/"+title)print("文件夹建立成功")url_count=0forurlinurl_list:a=os.path.exists("./小说/"+title+"/"+chapter_list[url_count]+".txt")url_count+=1ifa:try:print(chapter_list[url_count],"已存在,PASS")exceptIndexError:print("全部章节验证完毕")continuerequests_url=requests.get("https://www.mibaoge.com/"+url,headers=headers)soup=BeautifulSoup(requests_url.text,"lxml")chapter=soup.find("h1").textcontent=str(soup.find("div",id="content")).replace("<!--go-->","").replace("<!--over-->","").replace("<br/>","n").replace("<divid="content">","").replace("</div>","")withopen("./小说/"+title+"/"+chapter+".txt","w")asf:f.write(content)print(chapter,"写入成功")print(title,"写入成功")


相关文章

    无相关信息
评论
建站知识
建站知识
使用技巧
调试安装
运营推广