草庐IT

用1000行代码统计西安新房价格后,我有一个惊人的发现……

dijia478 2023-04-20 原文

事情是这样的

前段时候,我站在华山之巅(没错,我去夜爬华山看日出了,要死),一个朋友突然问我:你知道现在西安每个区域的新房均价是多少吗?

这个时候,肯定是用数据说话嘛。

不过你以为我会在网上随便找个,不知道哪里冒出来的(野榜)西安各区域价格排名,甩给对方了事吗?

当然不会!

众所周知,我是一个程序猿,身为程序猿,严谨细致,阳光帅气。。。咳咳

秉承着严谨负责的态度,我当然要用最准确,最全面的数据,这样才有说服力嘛。

先上结果

高新单价 一枝独秀 23199.73/㎡

航天基地 总价霸榜 平均333个w

航天基地 户均158.72㎡

时而房荒 时而放量

精装毛坯大约 1比2

面积分布 主力为100-150

房子越大,单价越贵

需求分解

我们来需求分解下,要想知道西安每个区域的新房均价是多少

  1. 首先我们需要知道全市每套新房的价格
  2. 其次要知道每套房子位于哪个区域
  3. 然后将所有房子按区域分类
  4. 最后求每个区域所有房子价格的平均数

重点难点还是前两步,从哪里获取这种价格和区域的数据,才最准确,最全面呢?

当然是西安住建官网的价格公示啦~

这个网站上,有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据,还有一些其他信息。而且是官方公示,保证准确全面。

我们来看下这个网站的结构,点击项目名称,可显示楼幢信息:

点击楼幢编号,显示房屋信息:

这样我们就可以查到我们需要的所有数据了。

我简单看了下,网站总共公示了有160多个项目,5万多套房子的数据,我呢,手动将5万多套房子的数据复制粘贴到 Excel 统计。

最后得到了以上结论。很简单,有手就行。

全文完 感谢阅读

手艺人的事

说好的写代码实现呢!??

众所周知,我是一个程序猿,身为程序猿,会点网络请求数据处理很合情合理吧。

上手艺!

于是乎,我分析了下网页代码,流程大致是这样的:

3个界面所包含的信息如下:

  • 项目信息:项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间
  • 楼幢信息:楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价
  • 房屋信息:房号、建筑面积(㎡)、单价(元/㎡)、房屋总价(元)、装修标准

一进项目信息的网页,从开发者工具中可以看到,哗啦啦请求了一大堆资源,不用管别的,真正有用的是第一个(居然不是rest风格接口,差评):

这个请求就返回了我们需要的项目名称所属事权区域信息。

看这个请求的三个参数page=1&key=&qdm=,猜也能猜出来,第一个是分页参数,第二个是项目名称,第三个是区域。由于这里我们要的是所有数据,所以后面两个参数对我们来说就没啥用了。

再点击项目名称,进入楼幢信息页面,又会请求一堆资源,有用的还是第一个接口:

这个接口返回的是该项目下,每栋楼幢的信息,这里其实没有什么我们需要的数据。

请求参数也很简单,就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4,一看就知道是项目(公司)编号ID,用的应该是UUID。

有人会说,这里就有每栋楼幢的均价啊,那不就可以了吗?知道每幢楼的均价,再对每个区域所有楼幢的均价求平均数,不就是区域的房价平均数吗?

从数学角度,这逻辑没毛病,可我明明可以获取更精确的每套房子的价格,干嘛还要用别人给我提供的均价再去求平均数呢?万一某个楼幢均价被工作人员算错了也说不定。

于是我再点击楼幢号,进入房屋信息界面,依然请求了一堆资源,依然看第一个接口:

这个接口返回的是该楼幢下,每个房屋的信息,就有我们最关心的面积单价总价信息。

请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603&lzh=1,看拼音也知道,这两个分别是楼幢编号ID和楼幢号。

现在我们就清楚了所有需要的数据,应该从哪些地方搞了,就是上面三个接口。

Coding

页面逻辑已经梳理清楚,接下来不就剩coding了嘛。

别急,在coding之前,我们应该先在数据库里建好表,这样方便我们后续各种花式查询

我设计的表结构长这样:

其实从业务模型上来说,应该是有三张表才对:项目表、楼幢表、房屋表。但是因为我懒,所以一个大宽表全部存起来,数据冗余就冗余吧,对数据库来说数据量很小,问题不大。

然后去https://start.spring.io/网站搭个架子,我设想中这个程序要是持续自动化的,每周自动去更新最新的信息到数据库里,所以这里用一下 Spring 自带的 Scheduled 单机定时任务就行,不需要整什么分布式任务调度。

这里我们用 cron 表达式规则,让他每周六凌晨4点执行,这个时候网站访问人数应该比较少,减少对服务器的压力:

既然要模拟发送网络请求,我就简单搞个 OkHttp 吧,这个没什么,自己喜欢用哪个就用哪个:

然后就是一大段 html 解析了,这个没啥说的,就是一些数据处理,很简单,直接上成果:

代码逻辑主要有5步:

  1. 查询所有的项目信息
  2. 从数据库中过滤掉已经入库的项目信息
  3. 根据项目信息查询所有楼幢信息
  4. 根据楼幢信息查询所有房屋信息
  5. 构造DO对象集合,将所有房屋信息插入数据库

最后就是用 mybatis 批量插入数据库里:

记得这么写的话要开启这个参数哦:

两个坑

既然是分页查询数据,那肯定会有什么时候结束分页的问题。这个本来没什么,测试请求一个很大的 page 参数,看看服务器怎么返回的就知道了。可这里就有个坑,我在项目信息页,传入 page=100,返回的数据是这样的:

<table> 标签内只有一个 <tr>,就是表头信息,那我就认为,当出现这种情况的时候,分页请求就应该结束了。

可当我在请求楼幢信息页的时候,同样传入 page=100,发现并不一样,响应体居然是空的:

房屋信息页也是一样的问题。

所以项目信息页的分页终止条件,和楼幢信息页、房屋信息页的分页终止条件,是不一样的,这是一个坑。

第二个遇到的坑,是隐藏在网页的 JS 代码里。

当点击项目名称、楼幢编号,会进行页面跳转嘛,这肯定是在 JS 里实现的,去看看代码。

如上图所示,当点击项目名称的时候,会去调用 goherf 方法,这个方法有两个参数。第一个简单,应该就是项目编号ID,是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢?我们去看看方法里面:

看到第二个参数是一个 type ,当不等于 0 的时候,才会打开楼幢信息页面,否则就弹窗提示:“当前项目暂未公示楼幢信息!”

好了,知道了这个点,我们代码里也需要判断下这个 type 是否等于 0,当等于 0 的时候,就不需要继续往后查询楼幢和房屋信息了。

那么楼幢信息页呢?是不是也是这么处理的呢?结果它不一样了!在楼幢信息页,点击楼幢号,它也是调用了一个 goherf 方法:

这个方法有三个参数,第一个同样是楼幢编号ID,第三个是楼幢号,那第二个是啥?有了上面的经验,我猜测也是一个 type,去看看 JS 代码:

没猜错,第二个确实是一个 type,可判断逻辑和上面的项目信息页的不一样!这个是只有等于 1 的时候,才允许打开房屋信息页,否则就弹窗提示“当前楼幢暂未公示房屋信息!”,总结如下:

等于固定值时 不等于固定值时
项目信息页 type=0,没有楼幢信息 type!=0,打开楼幢信息
楼幢信息页 type=1,打开房屋信息 type!=1,没有房屋信息

所以这第二个坑,在处理两个页面的逻辑时要注意区别。

从上面两个坑来看,我有理由怀疑,写项目信息页接口的,和楼幢信息页、房屋信息页接口的程序员,应该不是同一个人

上成果

经过我两天的调研和coding,终于写完了,上成果:

数据库内容:

数据库有数据了,那么接下来就是写sql的事了。

统计各个区域新房的平均单价,由高到低排序:

这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样,和你心目中的排名有区别吗?

我们可以再统计其他信息玩玩。

统计各个区域新房的平均总价,由高到低排序:

统计各个区域新房的平均建筑面积,由高到低排序:

统计每个月公示价格的新房数量:

好家伙,西安今年6月份是放了多少量啊,接下来一两个月市场供货量肯定很猛了。

统计西安新房中,精装房和毛坯房的数量:

可以看出来,毛坯房才是市场主流。

统计西安新房中,各个面积段的新房数量:

看的出来,主流面积段还是100-150的。

统计西安新房中,各个面积段的平均单价,由高到低排序:

总体来看,果然还是面积越大,单价越高啊。

好了,开头的问题,看到这里你肯定就有了答案,写完收工。如果还想知道从其他维度统计的结果,可以留言补充。

最后提一个直击灵魂的问题:

一个程序员写多少行代码,才能买下西安高新一套房?

有关用1000行代码统计西安新房价格后,我有一个惊人的发现……的更多相关文章

  1. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  2. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  3. ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2

    在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中,它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案 查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has

  4. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  5. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

  6. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

    如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

  7. ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串? - 2

    关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?

  8. ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2

    我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案

  9. ruby-on-rails - 浏览 Ruby 源代码 - 2

    我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码,但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如,我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码?我知道在pry中我可以执行类似show-methodmethod的操作,但我如何才能对Rails框架中的方法执行此操作?您对我如何更好地理解Gem及其API有什么建议吗?仅仅阅读源代码似乎真的很难,尤其是对于框架。谢谢! 最佳答案 Ru

  10. ruby - 模块嵌套代码风格偏好 - 2

    我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个,因为它显然有一个缺点?我有一种直觉,它可能与性能有关,因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。 最佳答案 这两种写作方法经常被混淆。首先要说的是,据我所知,没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别,可能也是最著名的,是你的

随机推荐