作者简介秋石,携程数据仓库专家,关注大数据、数据仓库、数据治理等领域;九号,携程数据技术专家,关注数据仓库架构、数据湖、数据治理;魁伟,携程资深数据工程师,关注实时&离线大数据产品及技术。一、实时数仓当前,企业对于数据实时性的需求越来越迫切,因此需要实时数仓来满足这些需求。传统的离线数仓的数据时效性通常为T+1,并且调度频率以天为单位,无法支持实时场景的数据需求。即使将调度频率设置为每小时,也仅能解决部分时效性要求较低的场景,对于时效性要求较高的场景仍然无法优雅地支撑。因此,实时数据使用的问题必须得到有效解决。实时数仓主要用于解决传统数仓数据时效性较低的问题,通常会用于实时的OLAP分析、实时
作者简介Stephen,携程资深后端开发工程师,专注新技术挖掘,持续推动业务创新Scott,携程资深研发经理,负责订单系统架构升级和优化一、背景携程机票订单系统是由多个业务子系统组成,包括出票、改签、航变等等,获取订单行程信息复杂度较高。例如:用户预订了一个包含了2个乘客的机票订单,该订单发生了航变,其中用户A选择了退票,用户B选择了改签。业务系统需要获得该订单最新的行程信息以及行程变化轨迹,以进行展示和进一步处理。上述例子用户的最新行程信息为:乘客1:航班号9C888,SHA-PEK,已退票乘客2:航班号9C999,SHA-PEK,已改签历史的系统设计需要通过API对各业务子系统的数据进行实
作者简介yang,携程资深后端开发工程师,专注推荐系统架构、数据流批一体、系统稳定性、效率提升等领域;kevin,携程高级研发经理,专注以技术驱动解决推荐系统中产品业务上的共性问题,创新生产模式,重构生产力;莫秃,携程高级后端开发工程师,负责酒店机器学习平台的研发工作;一、背景与思考1.1背景携程酒店排序推荐广告工程(以下简称酒店推荐工程)在数据层面引入抽象化的统一数据协议UnifiedPB,解决了过去各场景各自维护,建立各自的数据流,网状开放式数据表,烟囱式迭代的问题,实现了全场景数据的标准化、规范化、统一化。那么,UnifiedPB具体是什么呢?它是基于protobuf构建的统一工程、策略
春运抢票实录:网友在12306和携程上抢到了同一张火车票。再有几天就要过年了,因为口罩的彻底结束,所以今年的火车票特别抢手,不知道大家都抢到了嘛?今天看到一个网友的抢票问题,跟程序这块关系很大,特别分享给大家。这个网友同时在12306和携程上抢票,结果在12306和携程上竟然抢到了同一张票,同一车次、同一个座位,关键是钱付了两份,这真是一个好消息和一个坏消息。如下图所示,左边是携程,右边是12306。图片问题原因出现这个问题的原因是什么呢?我们先来分析下在12306和携程买火车票的逻辑。12306:12306就是销售火车票的官方APP,下单成功那就是真的在数据库中写入了一条订单记录,你能看到订
前言各大厂的春季招聘已经结束了,接下来就是暑期实习啦,私以为充足的准备也是一种对双向的看重和尊重。为了帮助职业圈网友能够及时了解携程旅行网的面试流程以及面试过程所涉及的面试问题,职业圈小编把最新携程旅行网面试经验编辑好,马上提供给大家,以便能够尽快帮助到有需要的人。文章中还为你提供携程旅行网面试过程中涉及的面试问题,希望对你有帮助。2022全新Java核心知识由于内容过多,本文篇幅有限,因此小编就不详细展示了,请各位网友认真的看完本文内容,你一定会有所收获!总结对于面试还是要好好准备的,尤其是有些问题还是很容易挖坑的,例如你为什么离开现在的公司(你当然不应该抱怨现在的公司有哪些不好的地方,更多
作者简介成学,携程高级安全研发工程师,关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初,科技圈最火爆的话题莫过于大语言模型了,它是一种全新的聊天机器人模型,除了能应对基本的日常聊天外,还能胜任如文案编写、旅游规划等各项工作。携程信息安全部也紧跟时代步伐,在携程内部推出基于大语言模型的智能聊天机器人,并发布网页版1.0,让所有“程里人”可以便捷无门槛地享受大语言模型带来的便利。在运营半年多后,我们广泛收集了用户的使用感受以及建议,结合当下大语言模型的发展进程,新推出了网页版2.0,相较于1.0版本,简化了页面展示,增加了历史会话保存、自定义对话设置、支持插件、AI绘
作者简介Kevin,携程后端开发专家,追求通过深入业务来简化系统,对底层算法、数据分析有浓厚兴趣。一、引言1.1背景微服务架构下,产研分工精细,需求迭代频繁,随着需求的不断迭代,应用数、代码量及测试用例越积越多;需求迭代(尤其是有新人加入)的过程中,产品经理需要通过开发了解现状和历史逻辑,开发人员翻阅历史代码花费的时间和精力越来越大,测试人员上线前需要回归的用例也越来越多,严重影响了需求迭代的效率。1.2现状分析目前携程旅游BG的后端开发人均应用数超过4个,人均维护的代码行近20万行;每月平均需求迭代的发布超过2千次,其中核心应用数占比及其发布次数占比都超过8成。为了提高需求迭代的效率,旅游技
整个分享分为下面几个部分:目录1.导入所需的库2.设定三个变量存储从爬取的评论数据中提取的信息3.爬取指定页面数(total_pages)的评论数据。4.设定postURL6.找到景点的poild并填写在代码中问题1:有时候Poild会被隐藏,所以可能需要多试几次。(或者新开一个浏览器窗口复制打开)7.发送POST请求到指定的postUrl,并加载响应的JSON数据。8.爬取评论接口数据,提取评论信息。9.将评论数据转换为DataFrame格式,再保存为Excel文件问题2:有955条评论的,但是只能爬到700多条,现下只能解决到这种程度了,求教希望知道怎么做的小伙伴)下面为全部代码,如果你着
在网络爬虫中,使用Scrapy和Selenium相结合是获取动态网页数据的有效方式。本文将介绍如何使用Scrapy和Selenium构建一个爬取携程旅游信息的爬虫,实现自动化获取数据的过程。本文已对部分关键URL进行处理,本文内容仅供参考,请勿用以任何商业、违法行径简介携程(you.ctrip.com)是一个提供旅游信息的网站,但它的部分内容可能是动态加载的,难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具,模拟浏览器行为进行数据的获取和处理。工具准备Scrapy:一个用于爬取网站并提取结构化数据的强大框架。Selenium:一个自动化测试工具,可以模拟用户操作浏览器的行
作者简介Terry,携程自然语言处理和大语言模型算法方向专家,有多年的自然语言处理项目经验和AI落地经验。一、背景随着OpenAI的ChatGPT火遍全球,大语言模型(LargeLanguageModel,下文简称LLM)成为了人工智能领域的热门话题。大语言模型是一种基于深度学习的自然语言处理技术,它能够模拟人类的语言能力并生成连贯的文本。这种技术的出现引起了广泛的关注和应用。大型语言模型在机器翻译、文本生成、智能对话等领域发挥着重要作用。在这些领域中,它们能够理解和生成自然语言,使得机器能够更好地与人类进行交流和合作。无论是在学术研究还是商业领域中,LLM都有潜力成为一个强大的工具,帮助我们