爬取上交所信息 缺乏、安全感 2021-11-09 11:44 502阅读 0赞 当遇到JS渲染时,很难找到正确的url,上交所就是一个比较典型的例子。在doc和xhr也没找到入口,最后在js中找到。成功以后即可进行后面数据爬取和分析。数据可视化部分下周抽时间写,最近在公司写Java爬虫,做信贷方面大数据分析,对爬虫归类和识别正确的**入口**很重要,其次就是**总页数**,**下一页,解析页(**自己写来玩就没必要了**)。**这样做的目的可以在框架下产生大量爬虫,在加上批处理,很吓人。 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM5NDYzMTc1_size_16_color_FFFFFF_t_70][] ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM5NDYzMTc1_size_16_color_FFFFFF_t_70 1][] 找到对应js后,查看请求头里面的url, # -*- coding: utf-8 -*- """ @author: yyl """ import requests from urllib.parse import quote import time from random import sample,choice headers = { 'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36', 'Referer': 'http://www.sse.com.cn/assortment/stock/list/share/' } #请求页面 def requests_one_page(url,parmas): try: r = requests.get(url, headers=headers) print(r.text) except: print("error") def main(): url = "http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback59522&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=1&pageHelp.pageSize=25&pageHelp.pageNo=1&_=1564755528542" parmas = {'callback': 'fetchJSON_comment98vv402', 'productId': '100003671742', 'score': '0', 'sortType': '5', 'page': '0', 'pageSize': '10', 'isShadowSku': '0', 'fold': '1', 'jsonCallBack': 'jsonpCallback59522', 'isPagination':'true', 'pageHelp.cacheSize': '1', 'pageHelp.beginPage': '1', 'pageHelp.pageSize': '25', 'pageHelp.pageNo': '1', '_': '1564755528542' } requests_one_page(url,parmas) if __name__=="__main__": #main() s=time.time() main() e=time.time() print("完成!!时间为:{}".format(e-s)) [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM5NDYzMTc1_size_16_color_FFFFFF_t_70]: /images/20211109/18abd0583eac432990dea2925e7e1035.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM5NDYzMTc1_size_16_color_FFFFFF_t_70 1]: /images/20211109/7b3221da5d5e4861a2c0b7572cf73643.png
相关 Python爬取51job招聘信息 前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 谁践踏了优雅/ 2022年12月07日 15:08/ 0 赞/ 357 阅读
相关 Python爬取磁力链信息 更新说明 2017.4.23 本程序使用MySQL数据库存储,使用本程序前请手动修改相关程序开头处的数据库连接语句。 需要requests、bs4、pymysql Bertha 。/ 2022年06月17日 10:22/ 0 赞/ 287 阅读
相关 爬取51job的职位信息 \!/usr/bin/python \encoding:utf-8 \网站---源代码---python信息---匹配findall---写入文件 import urll 喜欢ヅ旅行/ 2022年06月07日 02:54/ 0 赞/ 371 阅读
相关 scrapy爬取Tencent招聘信息 1.命令行创建一个scrapy工程 scrapy startproject Tencent 2.分析[https://hr.tencent.com/position 水深无声/ 2022年05月18日 05:55/ 0 赞/ 401 阅读
相关 python 爬虫爬取小说信息 1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称、作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3 桃扇骨/ 2022年04月02日 11:42/ 0 赞/ 596 阅读
相关 Python练习【爬取银行网站信息】 功能实现 爬取所有银行的银行名称和官网地址(如果没有官网就忽略),并写入数据库; 银行链接: http://www.cbrc.gov.cn/chinese 客官°小女子只卖身不卖艺/ 2022年01月17日 16:27/ 0 赞/ 351 阅读
相关 爬取上交所信息 当遇到JS渲染时,很难找到正确的url,上交所就是一个比较典型的例子。在doc和xhr也没找到入口,最后在js中找到。成功以后即可进行后面数据爬取和分析。数据可视化 缺乏、安全感/ 2021年11月09日 11:44/ 0 赞/ 503 阅读
相关 python爬虫实战:爬取股票信息,对上交所和深交所所有的股票信息进行搜集 要用到两个网站: 1.获取所有股票的名称的网址(这里指上交所和深交所的股票) https://www.banban.cn/gupiao/list_sz. 雨点打透心脏的1/2处/ 2021年11月04日 23:36/ 0 赞/ 755 阅读
相关 Python爬取百度备案信息 Python爬取百度备案信息 首先使用pip install requests和pip install bs4安装两个必备的库(注意:你的lxml可能没有安装,如果运行错 古城微笑少年丶/ 2021年10月24日 01:26/ 0 赞/ 667 阅读
还没有评论,来说两句吧...