爬取链家任意城市租房数据(北京朝阳) ╰+哭是因爲堅強的太久メ 2023-06-03 04:00 11阅读 0赞 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2019-08-16 15:56 4 # @Author : Anthony 5 # @Email : ianghont7@163.com 6 # @File : 爬取链家任意城市租房数据.py 7 8 9 import requests 10 from lxml import etree 11 import time 12 import xlrd 13 import os 14 import xlwt 15 from xlutils.copy import copy 16 17 # 伪装请求 18 headers = { 19 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 BIDUBrowser/8.7 Safari/537.36' 20 } 21 22 xlsInfo = {} 23 24 def catchHouseDetail(url): 25 # 通过requests模块模拟get请求 26 page_text = requests.get(url, headers=headers, stream=True) 27 28 # 将互联网上获取的页面数据加载到etree对象中 29 tree = etree.HTML(page_text.text) 30 31 # 定位页面标签位置装入一个list中 32 li_list = tree.xpath('//div[@class="content w1150"]/div[@class="content__article"]/div[@class="content__list"]/div') 33 all_house_list = [] 34 # 遍历列表中每一个字段 35 for li in li_list: 36 info = [] 37 # 房屋标题 38 # houseTitles = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--bottom oneline"]/i/text()') 39 # print(*houseTitles) 40 # 租房方式 41 houseWay = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[0].split('·')[0] 42 # 月租金额 43 houseMoney = li.xpath('.//div[@class="content__list--item--main"]/span[@class="content__list--item-price"]/em/text()')[0]+'元/月' 44 # 小区名称 45 plotName = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[0].split('·')[1] 46 # 房屋大小 47 houseSize = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/text()')[4].strip() 48 # 房屋户型 49 houseType = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[1] 50 # 房屋朝向 51 houseOrientation = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[2] 52 # 区域位置 53 communityArea = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[0] 54 # 地铁站名称 55 subwayArea = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[1] 56 # 小区名称 57 # plotName = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[2] 58 # 发布时间 59 releaseTime = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--time oneline"]/text()')[0] 60 61 info.append(houseWay) 62 info.append(houseMoney) 63 info.append(plotName) 64 info.append(houseSize) 65 info.append(houseType) 66 info.append(houseOrientation) 67 info.append(communityArea) 68 info.append(subwayArea) 69 info.append(releaseTime) 70 71 all_house_list.append(info) 72 if if_xls_exits() == True: 73 write_excel_xls_append(xlsInfo["xlsName"],all_house_list) 74 75 # print(catchHouseDetail('https://bj.lianjia.com/zufang/chaoyang/pg1')) 76 77 78 #获取数据写入xls表格中 79 def write_excel_xls(path, sheet_name, value): 80 index = len(value) # 获取需要写入数据的行数 81 workbook = xlwt.Workbook() # 新建一个工作簿 82 sheet = workbook.add_sheet(sheet_name) # 在工作簿中新建一个表格 83 for i in range(0, index): 84 for j in range(0, len(value[i])): 85 sheet.write(i, j, value[i][j]) # 像表格中写入数据(对应的行和列) 86 workbook.save(path) # 保存工作簿 87 print("xls格式表格写入数据成功!") 88 89 90 91 def write_excel_xls_append(path, value): 92 index = len(value) # 获取需要写入数据的行数 93 workbook = xlrd.open_workbook(path) # 打开工作簿 94 sheets = workbook.sheet_names() # 获取工作簿中的所有表格 95 worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格 96 rows_old = worksheet.nrows # 获取表格中已存在的数据的行数 97 new_workbook = copy(workbook) # 将xlrd对象拷贝转化为xlwt对象 98 new_worksheet = new_workbook.get_sheet(0) # 获取转化后工作簿中的第一个表格 99 for i in range(0, index): 100 for j in range(0, len(value[i])): 101 new_worksheet.write(i + rows_old, j, value[i][j]) # 追加写入数据,注意是从i+rows_old行开始写入 102 new_workbook.save(path) # 保存工作簿 103 print("xls格式表格【追加】写入数据成功!") 104 105 106 107 108 def if_xls_exits(): 109 while True: 110 book_name_xls = '北京链家租房信息表.xls' 111 sheet_name_xls = '房屋信息' 112 value_title = [["租房方式", "月租金额", "小区名称", "房屋大小", "房屋户型", "房屋朝向", "区域位置", "地铁站名称", "房屋发布时间"], ] 113 if os.path.exists('./%s'%book_name_xls): 114 xlsInfo["xlsName"] = book_name_xls 115 return True 116 else: 117 write_excel_xls(book_name_xls, sheet_name_xls, value_title) 118 continue 119 120 121 122 123 124 def catch(): 125 pages = ['https://bj.lianjia.com/zufang/chaoyang/pg{}/'.format(x) for x in range(1,100)] 126 for page in pages: 127 try: 128 info = catchHouseDetail(page) 129 except: 130 pass 131 time.sleep(2) 132 133 134 if __name__ == '__main__': 135 catch() ## **效果图:** ## **![1394549-20190816193410882-4149538.png][]** 转载于:https://www.cnblogs.com/ipyanthony/p/11365950.html [1394549-20190816193410882-4149538.png]: /images/20230601/e8dec62efef3471db1de0bdb085358a9.png
相关 爬取链家任意城市二手房数据(天津) 1 !/usr/bin/env python 2 -- coding: utf-8 -- 3 @Time : 2019-08-16 1 桃扇骨/ 2023年06月03日 04:00/ 0 赞/ 61 阅读
相关 爬取链家任意城市租房数据(北京朝阳) 1 !/usr/bin/env python 2 -- coding: utf-8 -- 3 @Time : 2019-08-16 1 ╰+哭是因爲堅強的太久メ/ 2023年06月03日 04:00/ 0 赞/ 12 阅读
相关 【Python】爬取链家网页后的数据处理:北京房价排序(学堂在线 杨亚) 一、内容来源 任务:将爬取获得的".json"文件转为".csv"文件,并进行数据处理 课程来源:[大数据分析师(第一期)(北邮 杨亚)][Link 1] 前期步骤( 淡淡的烟草味﹌/ 2023年03月13日 12:29/ 0 赞/ 107 阅读
相关 北上广深租房图鉴(上)| 小笨聪用python爬取链家租房数据 [微信公众号原文链接][Link 1] 电视剧《恋爱地图上海篇》有一句台词: > 上海很繁华,但没有一点真实的感觉。来这里工作两年了,没有一个朋友,没有一个爱人,我感觉我像 Myth丶恋晨/ 2022年10月01日 06:51/ 0 赞/ 223 阅读
相关 Python爬虫之链家二手房数据爬取 Python 依赖模块: requests parsel csv 功能要求: ![watermark_type_ZHJvaWRzYW5zZmFs 本是古典 何须时尚/ 2022年09月11日 07:23/ 0 赞/ 404 阅读
相关 Python爬取城市二手房数据 今天要分享的教程是爬取各大城市的二手房数据,抛开以前的文章不谈,下面的内容应该足够你实现这篇爬虫。以下是正文: 1. 确定目标 今天我们的目标官网链接是:https:/ ﹏ヽ暗。殇╰゛Y/ 2022年08月29日 14:55/ 0 赞/ 320 阅读
相关 python 爬取了租房数据 爬取链接:[https://sh.lianjia.com/zufang/][https_sh.lianjia.com_zufang] 代码如下: import 谁借莪1个温暖的怀抱¢/ 2022年05月14日 07:42/ 0 赞/ 380 阅读
相关 python爬取链家新房数据 转载:https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 impor 清疚/ 2022年05月09日 02:38/ 0 赞/ 278 阅读
相关 50 行代码爬取链家租房信息 最近自己开始学习数据分析的技术,但数据分析最重要的就是数据。没有数据怎么办?那就自己爬一些数据。大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数 淡淡的烟草味﹌/ 2022年02月02日 03:25/ 0 赞/ 355 阅读
还没有评论,来说两句吧...