【数据找房】1 用爬虫搜寻房屋数据

愁,一年过去了,买房的事情还是没有落实。
学区、地铁、房龄、地段、价格、面积、升值潜力…(+﹏+)~

看到一个知乎帖子,启发了我,我是个DT时代的程序员,用数据说话是基本的职业素养!

所以开始用数据找房,加油!

→_→再分析也改不了房价高的基本事实

前辈有开放代码的链家爬虫,不需要从头开始,但是链家的前端发生了变化,程序需要调整。另外,这段代码还有一些有效信息没有抓取,需要扩展。

前辈程序中HTML解析用了BeautifulSoup,这个库已经足够使用了。

前辈使用了SQLite,我打算使用MySQL,没有理由。

1. 提取小区信息,在小区页可以获取全部小区

  • 基本信息,例如小区ID行政区商圈平均单价

    http://城市拼音简写.lianjia.com/xiaoqu/区县的拼音全写/ <br/> 例如:天津市东丽区中城市拼音简写是tj,区县的拼音全写是dongli

  • 小区价格趋势

    http://城市拼音简写.lianjia.com/fangjia/priceTrend/c小区ID

  • 小区户型

    http://城市拼音简写.lianjia.com/xiaoqu/小区ID/huxing/

2. 提取小区成交记录

http://城市拼音简写.lianjia.com/chengjiao/c小区ID/pg页码

3. 提取小区在售房源信息

  • 在售信息

    http://城市拼音简写.lianjia.com/ershoufang/pg页码c房源ID/

  • 房源具体信息

    http://城市拼音简写.lianjia.com/ershoufang/housestat?hid=房源ID&rid=小区ID 这是json格式的数据

结果

GIS是我的老本行,所以GIS相关的只是不表述

将所有的二手房描绘在地图上,如下图:

天津市主城区二手房价格与区域关系

图中地图底图是OpenStreetMap下载的公开数据

天津市主城区二手房价格与区域关系

图中地图底图是天地图的在线地图数据

图中颜色越深,二手房单价越高。从图中开一看出几个简单的结论:

  1. 以海河为界,海河西侧比海河东侧市场更大,价格也相对更高
  2. 以和平区为重的,向四周发散,内环以内、内环与中环之间、中环与外环之间的房价阶梯比较明显
  3. 在图中可以看出城市外环附近有几个小区域价格也很高,例如梅江、西青高新区、机场工业区,这些区域与新的产业政策布局有关;另外东丽湖区域价格也相对较高,这块区域是别墅区。