摘要:
选择北京市年鉴中的若干数据指标, 构建经济社会因子体系, 采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型, 对2017和 2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同, 且2019年建筑业部分指标数据的公布存在延迟, 难以用模型拟合的方式对该年度竣工面积做出估计。因此, 利用爬虫技术获取高质量数据, 并深入挖掘网络数据中的信息, 通过互联网大数据估算北京市房屋竣工面积。首先, 建立基于网络大数据的建筑数据获取框架, 通过调用服务接口和关键字搜索等技术, 爬取北京地区8类建筑物的属性数据; 然后, 利用正则表达式和条件过滤, 对网页返回的HTML非结构化数据进行抽取和清洗; 最后, 对 2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。
原雯, 王君, 申鸿怡, 王新民. 基于统计年鉴和网络大数据的房屋竣工面积估算[J]. 北京大学学报自然科学版, 2021, 57(5): 804-814.
YUAN Wen, WANG Jun, SHEN Hongyi, WANG Xinmin. Estimation of Area of Completed Houses Based on Statistical Yearbooks and Online Big Data[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(5): 804-814.