企查查爬虫python实现（一）整体方法

贝叶斯巴达 2023-04-12 原文

目标：

通过excel的公司名获取对应的公司的url，写入excel。

一、安装chromedriver

在google上输入：chrome://version/，查询自己的版本号，如：97.0.4692.99 (正式版本) （64 位）
选择chromedriver版本号下载，要和自己chrome的版本号前三段匹配，下载chromedriver_win32.zip类似这种文件名的文件。
下载链接：下载地址1，下载地址2，下载地址3

解压后把驱动文件chromedriver.exe的文件夹路径加到Path环境变量里。

（这里建议用户环境和系统环境的path都加上驱动文件的路径。）

win10 打开环境变量

键盘按win+r,输入cmd，打开命令窗口，输入chromedriver，如下图则成功配置。

二、selenium+chromedriver 获取公司信息

1、提前用pip安装库，安装前先确保pip的版本是最新的

在cmd命令窗口输入python -m pip install --upgrade pip

async-generator==1.10
attrs==22.1.0
certifi==2022.9.24
cffi==1.15.1
charset-normalizer==2.1.1
cryptography==38.0.3
et-xmlfile==1.1.0
exceptiongroup==1.0.4
h11==0.14.0
idna==3.4
lxml==4.9.1
numpy==1.23.4
openpyxl==3.0.10
outcome==1.2.0
pandas==1.5.1
pycparser==2.21
pyOpenSSL==22.1.0
PySocks==1.7.1
python-dateutil==2.8.2
pytz==2022.6
requests==2.28.1
selenium==4.2.0
six==1.16.0
sniffio==1.3.0
sortedcontainers==2.4.0
trio==0.22.0
trio-websocket==0.9.2
urllib3==1.26.12
urllib3-secure-extra==0.1.0
wsproto==1.2.0

2、确定要爬取的字段，输入企查查用户名和密码

import re
import time
from collections import defaultdict

import pandas as pd
import requests
from lxml import etree
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException, WebDriverException
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By

# 确定要爬取的字段
credit_code = []
registered_capital = []

check_dict = {
    "统一社会信用代码": credit_code,
    "注册资本": registered_capital,
}

# 企查查用户名和密码
username = "xx"
password = "xx"

3、读取excel文件，

    path = "company_msg.xlsx"
    data = pd.read_excel(
        path, sheet_name=0
    )  # 默认读取第一个sheet的全部数据,int整数用于引用的sheet的索引（从0开始）

4、selenium启动chrome，设置反扒参数

开启实验性功能参数：add_experimental_option()
读入命令行参数： add_argument()

    # 使用chrome开发者模式
    option = webdriver.ChromeOptions()
    # 屏蔽webdriver特征
    option.add_experimental_option(
        "excludeSwitches", ["enable-automation"]
    )  
    # 禁用启用Blink运行时的功能，关闭网页页面的反扒校验
    option.add_argument("--disable-blink-features=AutomationControlled")

    option.add_argument("--no-sandbox") # 表示禁用沙盒模式
    # 沙盒模式：每一个标签页都是一个沙盒（sandbox），以“防止恶意软体自行执行安装”或“利用一个分页影响其他的分页”
    # 关闭web沙盒的命令，有可能导致浏览恶意网站时，被入侵。 
    option.add_argument("--disable-dev-shm-usage") # 启动浏览器时，添加参数--disable-dev-shm-usage。该参数使用本地local/tmp代替/dev/shm作为 Chrome 的运行空间，local/tmp比/dev/shm有更大的空间，可以使Cypress运行时，不容易因为一个文件的测试用例数多，导致内存溢出的问题。

    driver = webdriver.Chrome(options=option)
    # Selenium执行cdp命令，没有出现验证框就能登录说明已经成功屏蔽网页对selenium的识别。

    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
                    Object.defineProperty(navigator, 'webdriver', {
                      get: () => undefined
                    })
                  """
    })
    
    driver.set_page_load_timeout(25) # 用于设置页面加载超时,指定时间内未加载出页面则会报错
    driver.delete_all_cookies()  # 删除所有 cookie 信息
    url = (
        "https://www.qcc.com/weblogin?back=%2F"  # https://www.qcc.com/weblogin?back=%2F
    )
    driver.get(url)
    time.sleep(1)

5、登录方式

（1）可以选择扫码，如果扫码登录就设置延时，

（2）可以选择输入账号密码，如下

前面的反扒可能失效，如果出现验证码，则需要设置延时，进行手动验证，因为验证码的形式经常变化。

    # 点击非扫码登入
    driver.find_element(
        By.XPATH, "/html/body/div[1]/div[2]/div[2]/div/div[3]/img"
    ).click()
    time.sleep(1)
    # 点击密码登录
    driver.find_element(
        By.XPATH, "/html/body/div[1]/div[2]/div[2]/div/div[1]/div[1]/div[2]/a"
    ).click()
    time.sleep(1)

    # 输入账号密码
    driver.find_element(
        By.XPATH, "/html/body/div[1]/div[2]/div[2]/div/div[1]/div[3]/form/div[1]/input"
    ).send_keys(username)
    driver.find_element(
        By.XPATH, "/html/body/div[1]/div[2]/div[2]/div/div[1]/div[3]/form/div[2]/input"
    ).send_keys(password)

    # 点击立即登录
    driver.find_element(
        By.XPATH, "/html/body/div[1]/div[2]/div[2]/div/div[1]/div[3]/form/div[4]/button"
    ).click()
    time.sleep(20)

6、获取公司对应的url进行写入excel

读取文件中的公司名称，在浏览器中搜索。
判断企查查中的公司名是否和文件中的一致，把对应的公司url写入excel文件

    company_urls = []

    for index, row in data.iterrows():
        name = str(row["公司名称"]).strip()
        print(f"公司名称：{name}")
        if "公司" in name:
            name = re.findall("^.*?公司", name)[0]  # 正则只提取公司名称

        if name == "nan" or not name:
            company_urls.append("")
            continue
        try:
            driver.get(
                f"https://www.qcc.com/web/search?key={name}"
            )  # https://www.qcc.com/web/search?key={}
            try:
                d = driver.find_element(
                    By.XPATH,
                    "/html/body/div/div[2]/div[2]/div[3]/div/div[2]/div/table/tr[1]/td[3]/div/div[1]/span[1]/a",
                )
                txt = driver.find_element(
                    By.XPATH,
                    "/html/body/div/div[2]/div[2]/div[3]/div/div[2]/div/table/tr[1]/td[3]/div/div[1]/span[1]/a/span",
                )
                # 模糊查询，路径改为这个 /html/body/div/div[2]/div[2]/div[4]/div/div[2]/div/table/tr[1]/td[3]/div/div[1]/span[1]/a/span
                url = d.get_attribute("href")
                print(f"{txt.text}----->>>{url}")

                if txt.text == name:
                    company_urls.append(url)
                else:
                    # 判断爬取的名字和excel文件的公司名字是否一致。
                    company_urls.append("")

            except NoSuchElementException:
                # 没有找到名字相同的公司
                company_urls.append("")
                continue
            time.sleep(2)
        except:
            company_urls.append("")
            continue

    data["url"] = company_urls
    data.to_excel(path, index=None)

7、获取对应字段的xpath路径

举例，社会信用复制的xpath如下，

//*[@id="cominfo"]/div[2]/table/tr[1]/td[2]/span/span[1]

8、通过公司url获取对应字段

    for index, row in data.iterrows():
        url = str(row["url"]).strip()
        try:
            driver.get(url)  # https://www.qcc.com/web/search?key={}

            try:
                shehui_xinyong = driver.find_element(
                    By.XPATH,
                    '//*[@id="cominfo"]/div[2]/table/tr[1]/td[2]/div/span[1]'     
                ).text

            except:
                shehui_xinyong = ""
         except WebDriverException:
            shehui_xinyong = ""
        time.sleep(30)

注意：

如果不设置延时就会被检测为频繁操作，有一段时间无法登录，可根据需求设置time.sleep
代码中的xpath，可能时常有变化，如果爬取的内容为nan，可能需要到页面中重新复制对应字段的xpath

完整代码和数据：企查查爬虫python版本2022年-Python文档类资源-CSDN下载

有关企查查爬虫python实现（一）整体方法的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2
我正在尝试设置一个puppet节点，但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter，它工作正常，但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件，它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
Ruby 方法() 方法 - 2
我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索，但这不是我需要的。我也看过ruby-doc.org，但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗？更新我用methods()方法做了实验，得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby - Highline 询问方法不会使用同一行 - 2
设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline，但已经有几个月没有使用它了。现在，在Ruby1.9.2上全新安装时，它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗？最佳答案
ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2
我已经从我的命令行中获得了一切，所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时，我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗？我正在使用OSX并安装了rvm。最佳答案或者，您可以只使用“require”，它应该可以正常工作。我认为“require_relative”仅适用于ruby1.9+ 关于ruby-主要:Objectwhenrun
ruby - 多个属性的 update_column 方法 - 2
我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法，但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案您可以使用update_columns(attr1:val1,attr2:val2

企查查爬虫python实现（一）整体方法

目标：

一、安装chromedriver

二、selenium+chromedriver 获取公司信息

有关企查查爬虫python实现（一）整体方法的更多相关文章

随机推荐