• 提取代码(如何根据需要编辑从页面源获得的脚本?)

    我从页面源获得以下脚本结果。没问题。 我的目标:这是我得到的结果...在获得的输出中编写脚本的第一行太长,而Therows [0]在第一行的末尾。 我想做的是:删除Therows [0]之前的所有内容。这是删除重叠脚本的最后几行。 注意:以下打印输出:向左移动光标以在打印结果中到达Therows [0]。 我从页面来源收到的结果 <script language="JavaScript"> var theHlp='/yardim/matris.asp';var theTitle = 'Piyasa Değe...
  • AttributeError:“ NoneType”对象没有属性“ text”(可以在同一位置找到另一个标签,但找不到我需要的标签)

    我有一个xml文件,我正在尝试从中提取信息。以下是该文件的摘录 <?xml version="1.0" encoding="UTF-8"?> <Terms> <Term> <Title>.177 (4.5mm) Airgun</Title> <Description>The standard airgun calibre for international target shooting.</Description> <RelatedTerms> ...
  • 如何将凌乱的HTML表转换为Pandas DataFrame

    我正在尝试抓取SEC 10-Q和10-K档案。尽管我能够提取表格,但CSV输出还是有些混乱。有什么办法可以将带有相似标题名称的列与pandas合并?还是可以帮助我将SEC归档数据表导出为csv的任何库? [user@server sec_parser]$ /usr/bin/python3 /home/user/work_files/sec_parser/parser.py --file 10-Q-cmcsa-3312017x10q.htm ...
  • 漂亮的汤find_all不返回任何类型

    我正在尝试从要求提供用户名和密码的网站上抓取日期。 方法:遍历“ tbody”并在正文中附加每个“ tr”元素。 (如开发人员工具中所示) 问题:我漂亮的汤对象没有与“开发人员工具”中的代码相同的结构或元素。实际上,我的汤对象不包含任何“ tbody”或“ tr”。 我的汤对象不是应该镜像我在developerTools中看到的内容吗? 问题是什么? url = "https://d2l.pima.edu/d2l/lms/dropbox/user/folders_list.d2l?ou=475011&...
  • 使用BeautifulSoup解析670万页可以持续50天,这正常吗?

    我编写了一个脚本来解析imdb上的每部电影(使用官方数据库,目前已达到670万),以提取投票分配(该电影获得了10、9、8 ...个投票),该信息无法在他们的数据库中找到,需要为每部电影提取) 使用Python 3 Google Compute Engine大约需要花费时间。 50天这可以现实吗?谢谢 这是代码 import pandas as pd import requests from bs4 import BeautifulSoup import numpy as np import threadi...
  • 如何在html表中抓取?

    我想抓取雅虎财务的文本数据。对于任何股票行情,我希望能够获得总收入: 对于前面的示例,请参见欧莱雅页面。关联的目标代码为: <div class="rw-expnded" data-reactid="44" data-test="fin-row"> <div class="D(tbr) fi-row Bgc($hoverBgColor):h" data-reactid="45"> ...
  • 如何在booking.com上刮擦酒店类别类型?

    我正在为我的学术项目报废booking.com。我需要抓取酒店类别类型,无论给定的酒店是酒店,公寓式酒店还是别墅等。每个酒店都将转到新链接,并且每个酒店的类别有两个不同的类别。 我使用了硒Web驱动程序和漂亮的汤,但结果不正确,也找不到类(错误消息:消息:无法找到元素:// span [@class ='bui-badge bh-property-type bh-属性类型-建设性黑暗'] booking.com上的1类 booking.com上的2类 #Importing necessary libr...
  • Python抓取多页数据问题

    我遇到一个问题,我的代码仅从首页抓取了所有内容。但是我想抓取与第一页相同的多页数据。实际上,我还为多个页面编写了代码,它也前进到下一页,但再次抓取了第一页的数据。请查看我的代码,让我知道如何解决此问题。谢谢! 这是我的代码: import requests from bs4 import BeautifulSoup import csv def get_page(url): response = requests.get(url) if not response.ok: p...
  • 有可能在另一线程中使用一个线程吗? (蟒蛇)

    我现在正在使用通过Beautifulsoup和Selenium从Web抓取信息的代码中工作。我必须从18.000个网站上获取信息。 我已经有获取信息的代码,但是在速度处理方面存在一些问题。为此,我尝试对代码的一部分进行线程化,但有时会卡住并且计算机停止运行。我也尝试在另一个线程中做线程,但是没有用。想想我的代码实现中可能有一些问题。 这是我想要线程化的函数,里面有一个线程: def url_search(url): try: page_1 = requests.get(url) ...
  • 在tr中访问td时出现beautifulsoup错误

    这是我正在尝试访问的html,但是我似乎可以访问tr内部的第二个TD。 steven = soup.find(“ table”,{“ class”:“ table sticky-table-header table-hover ng-isolate-scope resize”})         对于steven.tbody.find_all('tr')中的行:             打印(row.td.text) <tbody> <!-- ngRepeat: record in records |...
  • 单击展开按钮后如何抓取LinkedIn

    I want to scrape information in the "Experience Section" of LinkedIn Page. Here is an example website: https://www.linkedin.com/in/jeffweiner08/ Scarping Process sketch 如图所示,我要: 1.检查是否有“显示*更多体验”按钮。 2.如果是这样,请首先单击“显示更多”按钮,然后收集信息。 3.如果没有,请直接收集信息。 for index, r...
公告

欢迎访问 goshare  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部