已解决
爬虫知识之BeautifulSoup库安装及简单介绍
来自网友在路上 158858提问 提问时间:2023-10-25 10:24:18阅读次数: 58
最佳答案 问答题库588位专家为你答疑解惑
一. 前言
在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下:
其中核心代码如下:
# coding=utf-8
import urllib
import re
#下载静态HTML网页
url='http://www.csdn.net/'
content = urllib.urlopen(url).read()
open('csdn.html','w+').write(content)
#获取标题
title_pat=r'(?<=<title>).*?(?=</title>)'
title_ex=re.compile(title_pat,re.M|re.S)
title_obj=re.search(title_ex, content)
title=title_obj.group()
print title
#获取超链接内容
href = r'<a href=.*?>(.*?)</a>'
m = re.findall(href,content,re.S|re.M)
for text in m:
print unicode(text,'utf-8')
break #只输出一个url
查看全文
99%的人还看了
相似问题
- Hyper-V系列:微软官方文章
- 全网最全jmeter接口测试/接口自动化测试看这篇文章就够了:跨线程组传递jmeter变量及cookie的处理
- 前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 第五章 Element-Plus组件库安装和使用
- Markdown使用emoji图标【美化你的文章】
- 前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 第二章 环境部署
- java基础练习缺少项目?看这篇文章就够了(上)!
- 前端新手Vue3+Vite+Ts+Pinia+Sass项目指北系列文章 —— 第一章 技术栈简介
- 批量替换WordPress文章内图片链接
- PMCW体制雷达系列文章(4) – PMCW雷达之抗干扰
- 新增文章分类
猜你感兴趣
版权申明
本文"爬虫知识之BeautifulSoup库安装及简单介绍":http://eshow365.cn/6-24122-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!
- 上一篇: 如何在Ubuntu下安装RabbitMQ服务并异地远程访问?
- 下一篇: Java8实战-总结44