用1000行代码统计西安新房价格后，我有一个惊人的发现……

dijia478 2023-04-20 原文

事情是这样的

前段时候，我站在华山之巅（没错，我去夜爬华山看日出了，要死），一个朋友突然问我：你知道现在西安每个区域的新房均价是多少吗？

这个时候，肯定是用数据说话嘛。

不过你以为我会在网上随便找个，不知道哪里冒出来的（野榜）西安各区域价格排名，甩给对方了事吗？

当然不会！

众所周知，我是一个程序猿，身为程序猿，严谨细致，阳光帅气。。。咳咳

秉承着严谨负责的态度，我当然要用最准确，最全面的数据，这样才有说服力嘛。

先上结果

高新单价一枝独秀 23199.73/㎡

航天基地总价霸榜平均333个w

航天基地户均158.72㎡

时而房荒时而放量

精装毛坯大约 1比2

面积分布主力为100-150

房子越大，单价越贵

需求分解

我们来需求分解下，要想知道西安每个区域的新房均价是多少

首先我们需要知道全市每套新房的价格
其次要知道每套房子位于哪个区域
然后将所有房子按区域分类
最后求每个区域所有房子价格的平均数

重点难点还是前两步，从哪里获取这种价格和区域的数据，才最准确，最全面呢？

当然是西安住建官网的价格公示啦~

这个网站上，有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据，还有一些其他信息。而且是官方公示，保证准确全面。

我们来看下这个网站的结构，点击项目名称，可显示楼幢信息：

点击楼幢编号，显示房屋信息：

这样我们就可以查到我们需要的所有数据了。

我简单看了下，网站总共公示了有160多个项目，5万多套房子的数据，我呢，手动将5万多套房子的数据复制粘贴到 Excel 统计。

最后得到了以上结论。很简单，有手就行。

全文完感谢阅读

手艺人的事

说好的写代码实现呢！？？

众所周知，我是一个程序猿，身为程序猿，会点网络请求和数据处理很合情合理吧。

上手艺！

于是乎，我分析了下网页代码，流程大致是这样的：

3个界面所包含的信息如下:

项目信息：项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间
楼幢信息：楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价
房屋信息：房号、建筑面积（㎡）、单价（元/㎡）、房屋总价（元）、装修标准

一进项目信息的网页，从开发者工具中可以看到，哗啦啦请求了一大堆资源，不用管别的，真正有用的是第一个（居然不是rest风格接口，差评）：

这个请求就返回了我们需要的项目名称和所属事权区域信息。

看这个请求的三个参数page=1&key=&qdm=，猜也能猜出来，第一个是分页参数，第二个是项目名称，第三个是区域。由于这里我们要的是所有数据，所以后面两个参数对我们来说就没啥用了。

再点击项目名称，进入楼幢信息页面，又会请求一堆资源，有用的还是第一个接口：

这个接口返回的是该项目下，每栋楼幢的信息，这里其实没有什么我们需要的数据。

请求参数也很简单，就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4，一看就知道是项目（公司）编号ID，用的应该是UUID。

有人会说，这里就有每栋楼幢的均价啊，那不就可以了吗？知道每幢楼的均价，再对每个区域所有楼幢的均价求平均数，不就是区域的房价平均数吗？

从数学角度，这逻辑没毛病，可我明明可以获取更精确的每套房子的价格，干嘛还要用别人给我提供的均价再去求平均数呢？万一某个楼幢均价被工作人员算错了也说不定。

于是我再点击楼幢号，进入房屋信息界面，依然请求了一堆资源，依然看第一个接口：

这个接口返回的是该楼幢下，每个房屋的信息，就有我们最关心的面积、单价和总价信息。

请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603&lzh=1，看拼音也知道，这两个分别是楼幢编号ID和楼幢号。

现在我们就清楚了所有需要的数据，应该从哪些地方搞了，就是上面三个接口。

Coding

页面逻辑已经梳理清楚，接下来不就剩coding了嘛。

别急，在coding之前，我们应该先在数据库里建好表，这样方便我们后续各种花式查询。

我设计的表结构长这样：

其实从业务模型上来说，应该是有三张表才对：项目表、楼幢表、房屋表。但是因为我懒，所以一个大宽表全部存起来，数据冗余就冗余吧，对数据库来说数据量很小，问题不大。

然后去https://start.spring.io/网站搭个架子，我设想中这个程序要是持续自动化的，每周自动去更新最新的信息到数据库里，所以这里用一下 Spring 自带的 Scheduled 单机定时任务就行，不需要整什么分布式任务调度。

这里我们用 cron 表达式规则，让他每周六凌晨4点执行，这个时候网站访问人数应该比较少，减少对服务器的压力：

既然要模拟发送网络请求，我就简单搞个 OkHttp 吧，这个没什么，自己喜欢用哪个就用哪个：

然后就是一大段 html 解析了，这个没啥说的，就是一些数据处理，很简单，直接上成果：

代码逻辑主要有5步：

查询所有的项目信息
从数据库中过滤掉已经入库的项目信息
根据项目信息查询所有楼幢信息
根据楼幢信息查询所有房屋信息
构造DO对象集合，将所有房屋信息插入数据库

最后就是用 mybatis 批量插入数据库里：

记得这么写的话要开启这个参数哦：

两个坑

既然是分页查询数据，那肯定会有什么时候结束分页的问题。这个本来没什么，测试请求一个很大的 page 参数，看看服务器怎么返回的就知道了。可这里就有个坑，我在项目信息页，传入 page=100，返回的数据是这样的：

<table> 标签内只有一个 <tr>，就是表头信息，那我就认为，当出现这种情况的时候，分页请求就应该结束了。

可当我在请求楼幢信息页的时候，同样传入 page=100，发现并不一样，响应体居然是空的：

房屋信息页也是一样的问题。

所以项目信息页的分页终止条件，和楼幢信息页、房屋信息页的分页终止条件，是不一样的，这是一个坑。

第二个遇到的坑，是隐藏在网页的 JS 代码里。

当点击项目名称、楼幢编号，会进行页面跳转嘛，这肯定是在 JS 里实现的，去看看代码。

如上图所示，当点击项目名称的时候，会去调用 goherf 方法，这个方法有两个参数。第一个简单，应该就是项目编号ID，是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢？我们去看看方法里面：

看到第二个参数是一个 type ，当不等于 0 的时候，才会打开楼幢信息页面，否则就弹窗提示：“当前项目暂未公示楼幢信息！”

好了，知道了这个点，我们代码里也需要判断下这个 type 是否等于 0，当等于 0 的时候，就不需要继续往后查询楼幢和房屋信息了。

那么楼幢信息页呢？是不是也是这么处理的呢？结果它不一样了！在楼幢信息页，点击楼幢号，它也是调用了一个 goherf 方法：

这个方法有三个参数，第一个同样是楼幢编号ID，第三个是楼幢号，那第二个是啥？有了上面的经验，我猜测也是一个 type，去看看 JS 代码：

没猜错，第二个确实是一个 type，可判断逻辑和上面的项目信息页的不一样！这个是只有等于 1 的时候，才允许打开房屋信息页，否则就弹窗提示“当前楼幢暂未公示房屋信息！”，总结如下：

	等于固定值时	不等于固定值时
项目信息页	type=0，没有楼幢信息	type!=0，打开楼幢信息
楼幢信息页	type=1，打开房屋信息	type!=1，没有房屋信息

所以这第二个坑，在处理两个页面的逻辑时要注意区别。

从上面两个坑来看，我有理由怀疑，写项目信息页接口的，和楼幢信息页、房屋信息页接口的程序员，应该不是同一个人。

上成果

经过我两天的调研和coding，终于写完了，上成果：

数据库内容：

数据库有数据了，那么接下来就是写sql的事了。

统计各个区域新房的平均单价，由高到低排序：

这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样，和你心目中的排名有区别吗？

我们可以再统计其他信息玩玩。

统计各个区域新房的平均总价，由高到低排序：

统计各个区域新房的平均建筑面积，由高到低排序：

统计每个月公示价格的新房数量：

好家伙，西安今年6月份是放了多少量啊，接下来一两个月市场供货量肯定很猛了。

统计西安新房中，精装房和毛坯房的数量：

可以看出来，毛坯房才是市场主流。

统计西安新房中，各个面积段的新房数量：

看的出来，主流面积段还是100-150的。

统计西安新房中，各个面积段的平均单价，由高到低排序：

总体来看，果然还是面积越大，单价越高啊。

好了，开头的问题，看到这里你肯定就有了答案，写完收工。如果还想知道从其他维度统计的结果，可以留言补充。

最后提一个直击灵魂的问题：

一个程序员写多少行代码，才能买下西安高新一套房？

hellip 惊人 1267939 img strong Java

有关用1000行代码统计西安新房价格后，我有一个惊人的发现……的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 渲染另一个 Controller 的 View - 2
我想要做的是有2个不同的Controller，client和test_client。客户端Controller已经构建，我想创建一个test_clientController，我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集，然后呈现客户端Controller的索引View，以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的