当前位置: 首页 > news >正文

软件开发学校排名山西seo顾问

软件开发学校排名,山西seo顾问,jsp个人网站怎样做,建设工程施工合同2021一、安装Scrapy框架 pip install scrapy 二、 创建scrapy框架默认目录 scrapy startproject tutorial #tutorial为你的项目的名称 该炒作会为您自动创建项目目录 三、项目目录介绍 tutorial/scrapy.cfg # deploy configuration filetutorial/ # p…

一、安装Scrapy框架

pip install scrapy

二、 创建scrapy框架默认目录

scrapy startproject tutorial
#tutorial为你的项目的名称

该炒作会为您自动创建项目目录

三、项目目录介绍

tutorial/scrapy.cfg            # deploy configuration filetutorial/             # project's Python module, you'll import your code from here__init__.pyitems.py          # project items definition filemiddlewares.py    # project middlewares filepipelines.py      # project pipelines filesettings.py       # project settings filespiders/          # a directory where you'll later put your spiders__init__.py

四、先从第一只爬虫开始吧

爬虫用来定义爬取网站和相应结果处理是在Spider类定义的初始请求,我们开始第一次爬取数据新建一个文件在 tutorial/spiders 下的quotes_spider.py 

import scrapyclass QuotesSpider(scrapy.Spider):#标记爬虫程序,他在项目是唯一的,不同的爬行器用不同的名称name = "quotes"#该方法必须返回一个请求的可迭代数据,爬虫会从第一个数据开始爬取def start_requests(self):urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]for url in urls:yield scrapy.Request(url=url, callback=self.parse)#在每一个请求成功后处理相应数据的方法Response参数是 TextResponse 它保存页面内容def parse(self, response):page = response.url.split("/")[-2]filename = f'quotes-{page}.html'with open(filename, 'wb') as f:f.write(response.body)self.log(f'Saved file {filename}')

如何运行我们的爬虫代码呢?

跳转到项目顶级目录下运行:

scrapy crawl quotes
#quotes为爬虫文件的名称

代码会生成两个文件,类似于这样:、

这种方式可能不是那么快捷,有些操作是没有必要的,我们可以直接这样写

from pathlib import Pathimport scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"#变量名为start_urls  会默认实现start_requests方法,无需书写该方法start_urls  = ["https://quotes.toscrape.com/page/1/","https://quotes.toscrape.com/page/2/",]def parse(self, response):page = response.url.split("/")[-2]filename = f"quotes-{page}.html"with open(filename, 'wb') as f:f.write(response.body)

个人理解就是省却了写一个方法通过命名变量的方式来默认实现 start_urls  方法

五、提取数据

最好的学习方式是使用shell进行学习

在终端上运行:

scrapy shell "http://quotes.toscrape.com/page/1/"

 你可以看到这样的结果:

http://www.cadmedia.cn/news/4713.html

相关文章:

  • linux系统百度seo搜搜
  • 上海建设交通党建网站深圳经济最新新闻
  • 外贸网站产品分析如何做网页链接
  • 社保网站是每月1-6号都是在建设中的吗百度怎么发帖子
  • 温州网站建设最新报价百度竞价开户多少钱
  • 企业网站seo贵不贵关键词seo报价
  • 网站的建设及维护优化网站推广教程排名
  • 成人高考学校自己怎么优化关键词
  • 购物网站排名前十百度云网页版入口
  • 济宁建设企业网站注册域名后怎么建网站
  • 建筑施工合同模板上海网站营销seo方案
  • 网站建设动漫搜索引擎入口网址
  • 运涛网站建设怎么做电商平台
  • 个人建站系统下载班级优化大师app
  • 包头网站建设推广重庆seo什么意思
  • 西宁做网站谷歌账号
  • wordpress 视频加速公司seo推广营销网站
  • 做网站要多少钱一个seo国外推广软件
  • 深圳网站建设网站制作网站推广杭州seo推广服务
  • 山西网站开发公司友情链接如何交换
  • 做烘培网站全媒体运营师报考官网在哪里
  • 信阳网站建设招聘seo技术培训江门
  • 中国制造网外贸网站电工培训机构
  • cc0图片素材网站传播易广告投放平台
  • 网站维护与建设合同书智能营销系统
  • 网站建设合同的性质关键词优化的主要工具
  • 自助游网站开发分析报告百度入口提交
  • 页面设计要求北京网站优化常识
  • 长沙微信公众号开发东莞seo优化seo关键词
  • 中国第四冶金建设有限公司官方网站品牌营销推广策划公司