• 我的递归刮板抓取工具不抓取

    我试图递归地爬过引号中指定的url的所有页面,并获取引号,作者名和相关标签并将其存储在json中。爬虫已启动,并且正在创建json文件但未获取内容。我是新手,以前使用bs4进行抓取,因此无法确定问题所在。 将循环中的.getall更改为.get(),新错误是 编码- 和输出日志 import scrapy class QSpiderRecursive(scrapy.Spider): name= 'QSpiderRecursive' def start_requests(self): ...
  • 难以理解的结果

    所以我一直在尝试在python中使用scrapy来抓取imdb.com,这是代码: class FilmDataBasicSpider(scrapy.Spider): name = 'imdb_crawling_machine_3000' allowed_domains = ['www.imdb.com'] def start_requests(self): genres = ['action' ,'adventure' , 'animation' , 'biography' , 'comedy...
  • Docker服务需要影响另一个服务的两个副本

    早上好, 我有一个问题正在努力诊断和解决。首先是免责声明,我大约在6到7个月前才开始学习Python,在那之前我没有开发经验。我的第一个项目是使用Scrapy引擎的Web抓取项目。学习了Docker之后,我决定将其分解为多个容器。这需要花点时间才能弄清楚,但是一旦完成,我就开始工作并在docker-compose.yml中进行协调。 我有5个服务,一个用于Scrapyd,这是Scrapy引擎运行的守护程序/服务器,一个用于postgres收集被抓取的条目,一个用于轮询postgres寻找关键字,以及一个与之...
  • python Spider返回空的json文件

    我在python中创建了Json文件以使用scrapy来存储抓取的数据,但是json文件为空,尽管python scrapy spider抓取了所有数据。我正在尝试将所有抓取的数据存储到json文件中。没有导入到json文件。我找不到任何解决方案 我正在共享文件蜘蛛和item.py 我使用此命令scrapy crawl scraper -o products.json 蜘蛛 import scrapy from bs4 import BeautifulSoup as Soup from ..items im...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部