菜鸡源码,专注精品下载!
当前位置:首页 > 建站教程 > 建站知识

使用Python编写代码以爬取博客文章内容

发布时间:2024-01-05  栏目:建站知识   浏览:   分类:python教程 Python爬取

```python import requests from bs4 import BeautifulSoup url = '博客文章的URL' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') title = soup.find('h1').text content = soup.find('div', class_='article-content').text print(f'标题:{title} 内容:{content}') ```

临时写的一个,应用场景佷有限,大家凭自己再扩展吧,我是因为要把一个文章迁移,强制复制也不行,就写了个这玩意。

importreimportrequestsfromlxmlimportetreepost_url=input('请输入文章地址:')#根提文章地址get数据res=requests.get(post_url)xx=res.content.decode('utf-8')x=etree.HTML(xx)#需要获取父级xpath#xpath示例://*[@id="article-container"]#不会的百度吧xpath=input('请输入xpath路径,可打开控制台查看:')content=x.xpath(xpath+'//*')ree=re.compile(r'class=".*"|id=".*"')urll=re.compile(r'(?<=(src="))(/).*?(?=("))')withopen('resualt.txt','w',encoding='utf-8')asfile:tep1=''foriincontent:tep=etree.tostring(i,encoding='utf-8').decode('utf-8').strip()tep=re.sub(ree,",tep)strr=re.search(urll,tep)#如果图片是想对路径,就自动背换成绝对路径,《需要自己寻找修改路径地址》#后面不用筒,只需要找到煎面的路径就行。就像&#160;https://dreamtea.top#需要自己实测ifstrrisnotNone:strrr=strr.group()tep=re.sub(urll,'&#160;https://cdn.con'+'/'+strr,tep)#print(tep)strr=Noneiftep!=tep1andtepintep1:#print(tep)continuefile.write(tep)tep1=tepprint('导出完成!')

这个可以再扩展成更自动的,可是我懒,希望有闲的没事的大佬扩展一下,我要借鉴(抄)~~

评论
建站知识
建站知识
使用技巧
调试安装
运营推广