初步的百度爬虫

from bs4 import BeautifulSoup
import urllib2
import urllib
import re
import urlparse

param = raw_input(‘Please input what your want search‘)
#   www.baidu.com/s?&wd=kkkkkkkkkkkk
yeshu = int(raw_input(‘Please input page number 1-10‘))
#www.baidu.com/s?wd=11111&pn=20
for i in range(yeshu):
    i = i * 10
    url = ‘http://www.baidu.com/s?&wd=‘+param+‘&pn=‘+str(i)
    try:
        req = urllib2.urlopen(url)
    except urllib2.URLError,e:
        continue
    content = req.read()

    soap = BeautifulSoup(content)

    link = soap.find_all(class_ = ‘t‘)

    href = []
    for i in range(len(link)):
        pattern = re.compile(‘href=\"(.+?)\"‘)
        rs = pattern.findall(str(link[i]))
        if len(rs) == 0:
            break
        href.append(str(rs[0]))

    for t in range(len(href)):
        try:
            ss = urllib2.urlopen(href[t])
        except urllib2.URLError,e:
            continue
        real = ss.geturl()
        domain = urlparse.urlparse(real)
        realdomain = domain.netloc
        fp = open(‘url.txt‘,‘a+‘)
        fp.write(realdomain+‘\n‘)
        fp.close()

时间： 2024-05-09 18:01:03

初步的百度爬虫的相关文章

python学习（二）百度爬虫0.1

参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握. 我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警. 因此,基于需求,分如下步骤: 第一:基于Scrapy创建爬虫项目: 第二:新建TieBaSpider爬虫: 第三:新建外部关键字库dictionary.txt文件,贴吧地址配置url.txt文件: 第一步参考晚上案例. 从第二步开始,编写爬虫,同时创建实例对象以及创

初步认识网络爬虫

无论你是由于什么原因想做一个网络爬虫,首先做的第一件事情就是要了解它. 在了解网络爬虫之前一定要牢记以下4个要点,这是做网络爬虫的基础: 1.抓取 py的urllib不一定去用,但是要学,如果你还没用过的话.比较好的替代品有requests等第三方更人性化.成熟的库,如果pyer不了解各种库,那就白学了.抓取最基本就是拉网页回来. 如果深入做下去,你会发现要面对不同的网页要求,比如有认证的,不同文件格式.编码处理,各种奇怪的url合规化处理.重复抓取问题.cookies跟随问题.多线程多进程抓取

Python网络爬虫(一)：初步认识网络爬虫

python爬虫之基本知识

随着数据的海量增长,我们需要在互联网上选取所需要的数据进行自己研究的分析和实验.这就用到了爬虫这一技术,下面就跟着小编一起初遇python爬虫! 一.请求-响应在利用python语言实现爬虫时,主要用到了urllib和urllib2两个库.首先用一段代码说明如下: 1 import urllib 2 import urllib2 3 4 url="http://www.baidu.com" 5 request=urllib2.Request(url) 6 response=urlli

python 培训之爬虫

1. 输入文件为 fufang_list.txt yaofang_a aaiwan 阿艾丸 yaofang_a aaiwulingsan 阿艾五苓散 yaofang_a acaitang 阿菜汤 yaofang_a afurongjiu 阿芙蓉酒 yaofang_a aqietuoyao 阿伽陀药 yaofang_a aweichubisan 阿魏搐鼻散 yaofang_a aweigao 阿魏膏 yaofang_a aweigaoyao 阿魏膏药 yaofang_a aweihuapigao

crawler_浅谈网络爬虫

题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天.简单阐述下个人对网络爬虫的理解. 提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人.它们被广泛用于互联网搜

当前流行搜索引擎爬虫IP列表

通过搜集和总结,整理出当前比较常用的搜索引擎爬虫IP,仅供大家参考: 百度爬虫IP列表 220.181.108.100 180.149.130.* 220.181.51.* 123.125.71.* 180.76.5.66 google爬虫列表 66.249.64.50 67.221.235.*66.249.68.*66.249.67.*203.208.60.*66.249.72.*66.249.71.* 宜搜183.60.213.6 183.60.21

让GitHub Pages博客支持百度搜索引擎收录

原文链接:http://tabalt.net/blog/make-blog-support-baidu-search-engine/本博文章如无说明均为原创,转载时请注明以上链接 GitHub Pages搭建的网站,在百度搜索引擎访问的时候,经常性的会返回 403 forbidden,从而百度会认为网站访问不稳定,对网站降权,甚至K站. 要想解决这个问题,只有买个VPS自己撘一个jekyll解析博客了.但是我的域名没有备案,单纯用国外的VPS,用户访问起来也会有慢的问题,毕竟Github Pag

百度索引量持续下降的原因以及解决方法

首先,什么是百度索引量? 我们来看官方给出的解释: 站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量. 站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户.页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引. 目前site语法的数值是索引量估算值,比较不准.推荐站长们使用我们的新工具,同时我们也正在努力改进site语法. 其次,索引量发生变化的原因分析. 百度索引量变化追查原因图解从上图我们可以总结出来呢,索引量归零或者下降的原因: 1.Robost是