【Python】爬取链家网页后的数据处理:北京房价排序(学堂在线 杨亚) 淡淡的烟草味﹌ 2023-03-13 12:29 97阅读 0赞 ### 一、内容来源 ### **任务**:将爬取获得的".json"文件转为".csv"文件,并进行数据处理 课程来源:[大数据分析师(第一期)(北邮 杨亚)][Link 1] 前期步骤(数据获取):[【Python】动态页面爬取:获取链家售房信息(学堂在线 杨亚)][Python_] **注意:本实例获取的数据为链家“北京二手房”前三页,若需更多数据,可修改前期爬取数据的代码** ## 二、数据变化过程 ## 1、".json"文件转为".csv"文件 数据量大,可采用代码的方式转换。 本实例采取网页方式转换:https://json-csv.com/ 2、原数据: ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODU2NzMz_size_16_color_FFFFFF_t_70] 3、按"|"拆分描述信息后的数据: ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODU2NzMz_size_16_color_FFFFFF_t_70 1] 4、按照平均房价倒序显示(数据为部分数据) ![在这里插入图片描述][20200513195202564.png_x-oss-process_image] ## 三、代码 ## 请根据具体操作需求进行相应修改! import numpy as np import pandas as pd orig_df = pd.read_csv('Lianjia_MyData.csv',encoding='utf-8',dtype=str) #查看基本信息 print(orig_df.describe()) #查看是否有缺失值 print(orig_df.isnull().sum().sort_values(ascending=False)) #按照‘price’进行倒排(此时为str类型) print(orig_df.sort_values(by='price',ascending=False)) #1 去掉空格 orig_df['name'] = orig_df['name__001'].str.strip() #2 price转换为整型 orig_df['price'] = orig_df['price'].astype(np.int) #3 将desp 分列 df = orig_df['desp'].str.split('|',expand=True) #将每一列中的空格去掉 df[1]=df[1].str.strip() df[2]=df[2].str.strip() df[3]=df[3].str.strip() df[4]=df[4].str.strip() df[5]=df[5].str.strip() df[6]=df[6].str.strip() #将面积中的平米去掉,并改为float型 df[1]=df[1].str.replace("平米","") df[1] = df[1].astype(np.float) #将朝向中列内容中的空格去掉 df[2]=df[2].str.replace(" ","") #去掉无用的列 #df.drop([0],axis=1,inplace=True) #计算单价 unitprice = round(orig_df['price']/df[1],4) #合并所需的数据列 #result = pd.concat([orig_df.name,df,orig_df.price,unitprice],axis=1,ignore_index=True) #result.columns = ['name','type','area','direction','decoration','floor','year','construction','totalprice','unitprice'] result = pd.concat([orig_df.name,df[0],df[1],df[2],df[3],orig_df.price,unitprice],axis=1,ignore_index=True) result.columns = ['name','type','area','direction','decoration','totalprice','unitprice'] result.sort_values(by='unitprice',ascending=False,inplace=True) result.to_csv('result.csv',encoding='gbk') print(result.describe()) #分组查看数据均值 gb = result.groupby(["decoration","direction"]).mean() print((gb)) 按装修程度、朝向,分组查看数据结果: ![在这里插入图片描述][20200513194111864.png_x-oss-process_image] [Link 1]: http://www.xuetangx.com/courses/course-v1:xuetangx+BigDataBA01+2019_T2/about [Python_]: https://blog.csdn.net/qq_41856733/article/details/105952947 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODU2NzMz_size_16_color_FFFFFF_t_70]: /images/20230312/1908df03dec842728cfc5f9ed80fb7e4.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODU2NzMz_size_16_color_FFFFFF_t_70 1]: /images/20230312/8fe7a5e05808425683db0e4404aa424c.png [20200513195202564.png_x-oss-process_image]: /images/20230312/768dd3f968c841178e769bdcd93ee0cf.png [20200513194111864.png_x-oss-process_image]: https://img-blog.csdnimg.cn/20200513194111864.png?x-oss-process=image
相关 python爬虫之静态网页爬取--猫眼电影/链家二手房 猫眼电影(xpath) 目标 1、地址: 猫眼电影 - 榜单 - top100榜 2、目标: 电影名称、主演、上映时间 步骤 本是古典 何须时尚/ 2023年06月22日 08:25/ 0 赞/ 59 阅读
相关 【Python】Scrapy入门实例:爬取北邮网页信息并保存(学堂在线 杨亚) 内容来源 任务:学会爬取一个网站的部分信息,并以".json"文件形式保存 课程来源:[大数据分析师(第一期)(北邮 杨亚)][Link 1] 爬取网站:[教学辅助单 朴灿烈づ我的快乐病毒、/ 2023年05月21日 07:24/ 0 赞/ 27 阅读
相关 【Python】爬取链家网页后的数据处理:北京房价排序(学堂在线 杨亚) 一、内容来源 任务:将爬取获得的".json"文件转为".csv"文件,并进行数据处理 课程来源:[大数据分析师(第一期)(北邮 杨亚)][Link 1] 前期步骤( 淡淡的烟草味﹌/ 2023年03月13日 12:29/ 0 赞/ 98 阅读
相关 python北京房价预测_python数据分析——北京房价分析 数据集及源代码链接:https://github.com/roberpan/python/tree/master/test/dataanalyse/houseprice 一、 水深无声/ 2022年10月25日 14:27/ 0 赞/ 203 阅读
相关 Python爬虫之链家二手房数据爬取 Python 依赖模块: requests parsel csv 功能要求: ![watermark_type_ZHJvaWRzYW5zZmFs 本是古典 何须时尚/ 2022年09月11日 07:23/ 0 赞/ 390 阅读
相关 python爬取链家新房数据 转载:https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 impor 清疚/ 2022年05月09日 02:38/ 0 赞/ 260 阅读
相关 Python爬取网页的图片数据 本案例是基于PyCharm开发的,也可以使用idea。 [在项目内新建一个python文件TestCrawlers.py][python_TestCrawlers.py] 你的名字/ 2022年04月18日 06:29/ 0 赞/ 359 阅读
相关 Python爬取整个网页的数据 本案例是基于PyCharm开发的,也可以使用idea。 [在项目内新建一个python文件Test.py][python_Test.py] [Test.py][] 淩亂°似流年/ 2022年04月17日 05:19/ 0 赞/ 514 阅读
相关 链家全国房价数据分析 : 数据获取 最近一直在看论文,也有很久没有coding了,感觉对爬虫的技术有些生疏,我觉得即使现在手头没有在做这方面的东西,经常爬点对技术保鲜还是很重要的。所以这次我打算爬链家的房价数据, 朴灿烈づ我的快乐病毒、/ 2022年04月13日 04:17/ 0 赞/ 278 阅读
还没有评论,来说两句吧...