剑客
关注科技互联网

[房产交易数据分析](3) 数说南京新政的影响

0. 简介

前天(10-14)看到新浪头版之中有一条新闻《政策泼冷水 南京楼市成交量现“断崖式下降”》非常兴奋:我的手里面正好有这样的数据,正好来验证一下新闻的说法是否属实。

数据来源就是 南京网上房地产网 ,相应的爬虫程序在上一篇文章之中已有说明。可以直接到 GitHub 上来看。

文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/

1. 搭建Zeppelin来做数据展示

笔者之前主要使用Zeppelin来做数据分析的相关工作,对于一些需求不那么复杂的使用场景,Zeppelin完全足够啦。

关于如何搭建一个Zeppelin平台以及如何关联MySQL,可以查看之前的文章:《 Zeppelin 小试牛刀 – 使用Zeppelin展示MySQL的数据 》。 在此就不再啰嗦啦~

如果你还没有爬取相关的历史数据,可以到这里下载我爬的数据:【 点击下载

上面的前期准备工作完成之后,我们就可以实际的开展工作啦~

文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/

2. 成交量数据显示

因为我们的数据类似Streaming Data (流式数据),并且官网数据是按天累积,因此我们一个比较粗略的方式就是直接计算每天的max值。 同时,因为输入的时间是时间戳(timestamp),此时可以借用MySQL自带的date函数将时间戳转换成日期。

最后的SQL如下:

select 
  Date(update_time), 
  max(deal_unit) as final_deal_unit, 
  max(new_pub_2nd_house_unit)  
from njhouse_simple_summary 
group by Date(update_time)

在Zeppelin里面使用折线图显示,效果如下:

[房产交易数据分析](3) 数说南京新政的影响

颜色稍微粗一些的是房产的真实交易数据,颜色浅一些的是新公布出来的存量房(二手房)数量。

从上面的图我们可以看到:国庆之后,交易数量不断的上升,但是从10号开始,交易数量就不断不断的往下跌啦。

但是在这个图之中,我们其实还没有加入新政的因素。

文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/

3. 增加新政元素

我其实不知道新政首先会在哪里发布,同时会不会在发布之前就有内部消息出来。

数据来源还是上面提到的《南京网上房地产网》,具体页面: http://www.njhouse.com.cn/news/news_more_clx.php?c=2

但是这个不光是政策,还包括新闻~

哎,只能手动的添加一些数据啦。

为了简单起见,笔者很low的用了QQ截图工具,直接在上面的图做出了新政发布的标注。

效果如下:

[房产交易数据分析](3) 数说南京新政的影响

紫红色标注出来的线条就是新政发布的时间。

  • 10-03:房屋交易管理与不动产登记有关事项的告示
  • 10-05:市政府办公厅关于进一步加大我市房地产市场调控力度的通知
  • 10-08:关于开具购房证明的补充规定

可以看到,

(1) 前两次新政,也不知道是不是算是之前房市的利好,成交量跟存量房的供应量都大幅上涨,

(2)但是8号的新政出来之后,成交量跟存量房的供应量在2天之后都应声下落,特别是成交量的数据,下降幅度确实非常厉害。

所以说 这次新闻提到的“断崖式下跌”并没有夸张太多

文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/

4. 各区县的情况

如果您有看过这些政策文件,你可能会记得在《市政府办公厅关于进一步加大我市房地产市场调控力度的通知》里面提到的一句非常重要的话:“ 进一步加大主城区(不含六合区、溧水区、高淳区)房地产市场调控力度 ”。 也就是说,这一次的调控,实际上是将主城区的资金、投资客往郊区赶。

那我们也通过数据展示的方式来看看这个政策的力度如何吧。

数据来源页面: http://www.njhouse.com.cn/index.php 需要解析下面的表格:

[房产交易数据分析](3) 数说南京新政的影响

PS:想全部把数据解析出来还真的也是一个体力活啊 T_T   想做一条数据狗也是很不容易的!

因为我们需要根据第二天的数据来减掉第一天的数据,因此纯SQL我感觉已经有点吃力了。 转而采用Python + Pandas 在zeppelin上面操作。

代码如下:

%python
 
import MySQLdb
import pandasas pd
 
cfg = {
    'db_host':'1.2.3.4',
    'db_username': 'xxxx',
    'db_pass': 'yyyy',
    'db_name': 'flyml_house_stat',    
}
 
conn = MySQLdb.connect(cfg['db_host'], cfg['db_username'], cfg['db_pass'], cfg['db_name'])
conn.set_character_set('utf8')
 
sql = 'SELECT date(update_time) as date , district, value from njhouse_yearly_deal_stat where category = "住宅" and type="商品房" and `column` = "成交(套)" and `district` != "全市" group by DATE(update_time), district'
 
df = pd.read_sql(sql, conn)
 
 
new_row_list = []
step = 11
for i in range(step, df.shape[0]) :
    data_dict = {}
    data_dict['date'] = df.iloc[i-step]['date']
    data_dict['district'] = df.iloc[i]['district']
    data_dict['sold_value'] = int(df.iloc[i]['value']) - int(df.iloc[i-step]['value'])
    new_row_list.append(data_dict)
 
df = pd.DataFrame(new_row_list)
 
 
z.show(df)
 
 
conn.close()

不想看代码的直接看结果吧:

[房产交易数据分析](3) 数说南京新政的影响

数据解读:

  1. 从10-10开始,主城区的成交量都在下跌,特别是玄武区
  2. 10-11那一天,溧水的成交量也大幅下跌~ 说明之前溧水也是投资热点!
  3. 到了10-12, 溧水、六合、高淳、栖霞占据了前4
  4. 有意思的是10-12这一天, 江宁的数据是-8 ! 是不是说反悔在江宁购买的人比较多?
  5. 在往后面看, 各个区县的成交量都在大幅萎缩,除了溧水

5. 展望未来

根据上面的数据展示,以及新发布的政策来看,至少在南京 主城区 投资房产,风险已经极大的增加。最近反而是 溧水 去买房的资金比较多。

接下来我们其实还有一些问题需要解答,比如:

  1. 资金是否跑到其他二线还是已经转战三线城市?
  2. 目前风口向下的情况,房价是否应声而跌?

非常可惜,目前笔者手上还只有成交量的数据,并且还只爬取了南京。目前掌握的数据并不能支撑上面问题的分析。 笔者还会继续想办法,尝试通过数据来解答这两个问题以及其他房市、资金、经济相关问题

敬请关注FlyML.net^_^

文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/

本文为原创文章,转载需注明出处: www.flyml.net

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址