• 如何将.append()与openpyxl配合使用以抓取多个网页的内容

    我正在尝试创建代码以从网站上刮掉“指环王”脚本并将其粘贴到Excel电子表格中。我从创建代码开始为一页执行此操作,一切都很好,但是,当我添加一个循环遍历包含脚本的所有页面时,遇到了一个问题,每次电子表格的内容都会被覆盖刮了一个新页面。 Looking at the documentation for openpyxl, I understand that I should be using .append(), and I tried to do that, inside the if loop after...
  • 难以理解的结果

    所以我一直在尝试在python中使用scrapy来抓取imdb.com,这是代码: class FilmDataBasicSpider(scrapy.Spider): name = 'imdb_crawling_machine_3000' allowed_domains = ['www.imdb.com'] def start_requests(self): genres = ['action' ,'adventure' , 'animation' , 'biography' , 'comedy...
  • 硒不能获得我想要的所有信息

    I am trying to make a program which automatically gets information from this site and to begin with I've started small to only collect all the countries using the classes of the elements. However, it seems to be very inconsistent and keeps giving results ...
  • 使用Rvest检索隐藏在超链接后面的.csv下载

    I'm trying to use Rvest to download a .csv hidden behind the "download the complete db" link from the website: http://friedmanlab.weizmann.ac.il/McPAS-TCR/ 但是,在chrome中使用inspect元素时,在加载url时,href链接需要花费一秒钟的时间,因此在获取数据时,href不会被带入输出。 library(dplyr) library(rvest)...
  • 漂亮的汤find_all不返回任何类型

    我正在尝试从要求提供用户名和密码的网站上抓取日期。 方法:遍历“ tbody”并在正文中附加每个“ tr”元素。 (如开发人员工具中所示) 问题:我漂亮的汤对象没有与“开发人员工具”中的代码相同的结构或元素。实际上,我的汤对象不包含任何“ tbody”或“ tr”。 我的汤对象不是应该镜像我在developerTools中看到的内容吗? 问题是什么? url = "https://d2l.pima.edu/d2l/lms/dropbox/user/folders_list.d2l?ou=475011&...
  • 如何结合使用webscraper和电子邮件python代码,以便从刮板创建csv文件后发送?

    试图弄清楚将我的电子邮件代码放在Web爬虫中的位置以向自己发送通过抓取的数据创建的csv文件时遇到了困难。 (这对所有这些都是新知识,因此我正在学习如何以及在其他代码中放置代码) 我尝试在for循环之后运行它,但似乎不正确。任何帮助将非常感激。 import requests from bs4 import BeautifulSoup from csv import writer from time import sleep ### email modules ### import smtplib,ssl...
  • 在Python中字符串从一个列表移动到另一个列表再到第三列表时,在字符串中添加逗号

    其他问题都没有专门解决这个问题,所以现在我要问。 I'm web-scraping the following webpage: https://www.newegg.com/p/pl?Submit=StoreIM&Depa=3&Category=223 我能够将基本输出毫无问题地输入到csv文件中。我面临的挑战是使抓取的数据属于适当的列标题,并进行适当的格式化以方便查看和管理。 我正在刮刮newegg.com的笔记本电脑出售。由于笔记本电脑的描述之间有很大的差异,我想我会创建代码来尝试将笔记本电脑的属性放...
  • Python在错误的行上书写

    我正在编写将某些客户端代码发送到页面的抓取程序,如果代码正确,则必须在工作表上写一些将要加载的页面信息。如果客户端代码错误,则必须转到工作表上的下一个代码。 同一张纸发送和接收信息。客户端代码在第一列上,每个代码都有它自己的行来获取信息。 问题在于,如果客户代码错误,则编写先前在页面上获得的信息时,代码不会忽略该行。因此,最后我得到了所有写在顺序行(2、3、4、5 ...)上的信息,而没有跳过它们(如果客户端代码未返回任何信息,则应该跳过女巫)。 k_bot.py def search_cpfs(s...
  • 我使用请求模块制作了一个python代码并收到错误消息(尝试使用此代码提交我自己的格式)

    因此,我制作了一个类型表单并为其编写了一些代码,该代码将按我想要的频率进行提交,并且在代码输入电子邮件时收到错误,出现错误 import json import sys import time import requests count = 0 with open('emails.txt') as f, open('firstname.txt') as f2: emailLines = f.readlines() firstnameLines = f2.readlines() ...
  • Python抓取多页数据问题

    我遇到一个问题,我的代码仅从首页抓取了所有内容。但是我想抓取与第一页相同的多页数据。实际上,我还为多个页面编写了代码,它也前进到下一页,但再次抓取了第一页的数据。请查看我的代码,让我知道如何解决此问题。谢谢! 这是我的代码: import requests from bs4 import BeautifulSoup import csv def get_page(url): response = requests.get(url) if not response.ok: p...
  • python硒查找元素并单击-不可单击

    我尝试单击“下载CSV”按钮,但找不到要单击的正确元素。将chrome驱动程序与Selenium结合使用,并尝试从DropdownWrapper直到并包括Download-Icon的屏幕快照中显示的几个级别的元素后,得到相同的错误: selenium.common.exceptions.WebDriverException:消息:未知错误:元素...在点(318,27)处不可单击。 这是我尝试过的一些语句,所有语句都会导致相同的错误: driver.find_element_by_xpath('/html/...
  • python Spider返回空的json文件

    我在python中创建了Json文件以使用scrapy来存储抓取的数据,但是json文件为空,尽管python scrapy spider抓取了所有数据。我正在尝试将所有抓取的数据存储到json文件中。没有导入到json文件。我找不到任何解决方案 我正在共享文件蜘蛛和item.py 我使用此命令scrapy crawl scraper -o products.json 蜘蛛 import scrapy from bs4 import BeautifulSoup as Soup from ..items im...
  • 如何使用cheerio或puppeteer抓取所有href?

    我有一种情况,需要从网站获取所有社交媒体链接。如果我认为所有社交链接都在首页上,那么每个社交链接都将获取每个社交媒体链接。以下是代码示例: 使用cheeriojs const cheerio = require('cheerio') const axios = require('axios') const https = require('https'); const agent = new https.Agent({ rejectUnauthorized: false }); // proces...
  • 单击展开按钮后如何抓取LinkedIn

    I want to scrape information in the "Experience Section" of LinkedIn Page. Here is an example website: https://www.linkedin.com/in/jeffweiner08/ Scarping Process sketch 如图所示,我要: 1.检查是否有“显示*更多体验”按钮。 2.如果是这样,请首先单击“显示更多”按钮,然后收集信息。 3.如果没有,请直接收集信息。 for index, r...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部