爬虫知识之BeautifulSoup库安装及简单介绍

来自网友在路上 158858提问提问时间：2023-10-25 10:24:18阅读次数： 58

最佳答案问答题库588位专家为你答疑解惑

一. 前言

在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片，其文章链接如下：

其中核心代码如下：

# coding=utf-8  
import urllib  
import re  
  
#下载静态HTML网页  
url='http://www.csdn.net/'  
content = urllib.urlopen(url).read()  
open('csdn.html','w+').write(content)  
#获取标题  
title_pat=r'(?<=<title>).*?(?=</title>)'  
title_ex=re.compile(title_pat,re.M|re.S)  
title_obj=re.search(title_ex, content)  
title=title_obj.group()  
print title  
#获取超链接内容   
href = r'<a href=.*?>(.*?)</a>'  
m = re.findall(href,content,re.S|re.M)  
for text in m:  
    print unicode(text,'utf-8')  
    break #只输出一个url

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"爬虫知识之BeautifulSoup库安装及简单介绍"：http://eshow365.cn/6-24122-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 如何在Ubuntu下安装RabbitMQ服务并异地远程访问？
下一篇: Java8实战-总结44

晴海小常识分享

晴海小常识分享

爬虫知识之BeautifulSoup库安装及简单介绍

最佳答案问答题库588位专家为你答疑解惑

一. 前言

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

爬虫知识之BeautifulSoup库安装及简单介绍

最佳答案 问答题库588位专家为你答疑解惑

一. 前言

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库588位专家为你答疑解惑