草庐IT

留学之路

全部标签

奇富科技:大数据任务从诊断到自愈的实践之路

一、为什么要做诊断引擎毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台,覆盖大数据资产管理、数据开发及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程,让用户使用数据的同时,挖掘数据最大的价值。而毓数平台的大数据任务调度底层是基于ApacheDolphinScheduler实现的。整个大数据平台有1000+机器、70P数据量,每日新增200T数据。每天在毓数工作流上运行的任务实例有13万+,周活跃用户400+;每天在毓数自助查询中运行的sql有16万+,周活跃用户500+。运行的任务类型有Spark任务、Sqoop任务、DataX任务等10多种任务类型。而我们的几

pandas高效读取大文件的探索之路

使用pandas进行数据分析时,第一步就是读取文件。在平时学习和练习的过程中,用到的数据量不会太大,所以读取文件的步骤往往会被我们忽视。然而,在实际场景中,面对十万,百万级别的数据量是家常便饭,即使千万,上亿级别的数据,单机处理也问题不大。不过,当数据量和数据属性多了之后,读取文件的性能瓶颈就开始浮现出来。当我们第一次拿到数据时,经常会反反复复的读取文件,尝试各种分析数据的方法。如果每次读取文件都要等一段时间,不仅会影响工作效率,还影响心情。下面记录了我自己优化pandas读取大文件效率的探索过程。1.准备部分首先,准备数据。下面的测试用的数据是一些虚拟币的交易数据,除了常用的K线数据之外,还

浅谈小程序开源业务架构建设之路

  一、业务介绍1.1小程序开源整体介绍百度从做智能小程序的第一天开始就打造真正开源开放的生态,我们的愿景是:定义移动时代最佳体验,建设智能小程序行业标准,打破孤岛,共建开源、开放、繁荣的小程序行业生态。百度智能小程序的生态玩家有三类,分别是:联盟合作伙伴、开发者和用户。对于联盟合作伙伴,满足合作伙伴的生态共建、流量共享、商业共赢诉求,使得合作伙伴App内缺失场景得到高效补充,拉动合作伙伴App用户使用时长,共享小程序的变现收入。对于开发者,满足了开发者一次开发,多端运行诉求,使得开发者流量获取更加便捷高效、并且增加开发者商业收入。对于用户,满足用户的无需跳出即可享受一站式服务诉求。百度搜索做

猫头虎博主2023年博客之路年终总结

博主猫头虎的技术世界🌟欢迎来到猫头虎的博客—探索技术的无限可能!专栏链接:🔗精选专栏:《面试题大全》—面试准备的宝典!《IDEA开发秘籍》—提升你的IDEA技能!《100天精通Golang》—Go语言学习之旅!领域矩阵:🌐猫头虎技术领域矩阵:深入探索各技术领域,发现知识的交汇点。了解更多,请访问:猫头虎技术矩阵新矩阵备用链接文章目录猫头虎博主2023年博客之路年终总结🐱🦉系统学习新技术的心得体会👨‍💻Go语言的魅力学习方法与心得精心整理的技术文档📚Go基础教程亮点想要安利给所有人的开发工具🔧Idea全家桶的便捷性工具的选择与应用对技术行业的深度思考🤔AI时代的挑战与机遇技术的发展方向职业规划与

架构师之路(十三)计算机网络(链路层安全)

前置知识(了解):计算机基础。作为架构师,我们所设计的系统很少为单机系统,因此有必要了解计算机和计算机之间是怎么联系的。局域网的集群和混合云的网络有啥区别。系统交互的时候网络会存在什么瓶颈。1CAM表溢出攻击与端口安全当与交换机相连的设备箱交换机发送数据帧时,交换机会立刻将数据帧的源MAC地址与接收到该数据帧的端口作为一个条目保存到CAM表中。溢出攻击:当CAM表已满时,如果交换机收到了以CAM表中没有记录的MAC地址作为目的地址的数据包,就会像集线器一样将数据帧通过所有端口进行泛洪。如果攻击者想要接收自己所在VLAN中的所有数据帧,可以设法用不同MAC地址将CAM填满即可。防御策略:Cisc

CentOS 7 基于官方源码和openssl制作openssh 9.6 rpm包(含ssh-copy-id) —— 筑梦之路

之前写了一篇:CentOS7制作openssh9.6rpm包更新修复安全漏洞——筑梦之路_升级openssh9.6-CSDN博客有好几个网友反馈,ssh-keygen生成密钥存在问题,之前的rsa\dsa加密算法用不了,因此写了一篇:关于openssh9.6p1版本ssh-keygen-trsa报错解决——筑梦之路_openssh9.5有安全问题吗-CSDN博客又有网友反馈,9.6版本安装后查看ssh-V跟之前不一样,没显示openssl版本信息了,因此这里来解决这个问题,制作能在centos7下基于官方源码制作安装显示openssl版本的信息的rpm包,另一种方法是可阅读这篇:CentOS5

Pandas数据大师之路-高级应用与性能优化【第35篇—python:Pandas数据大师】

文章目录引言Pandas简介安装Pandas读取Excel文件数据操作示例:计算平均值示例:筛选数据写入Excel文件实例:读取并写入新表格数据清洗与转换缺失值处理数据类型转换分组与聚合数据可视化进一步学习高级功能与进阶应用多表关联与合并时间序列分析自定义函数应用性能优化与大数据处理持续学习与实践结语引言在日常的数据处理工作中,我们经常会面临需要从Excel中读取数据并进行进一步操作的任务。Python中有许多强大的工具,其中之一是Pandas库。在本文中,我们将探讨如何使用Pandas库轻松读取和操作Excel文件。Pandas简介Pandas是一个用于数据处理和分析的强大Python库。它

Android进阶之路 - 深入浅出字体、字体库

当时组内临时接到一个换字体库的需求,这个需求相对简单,因为手头有其他事情,同时之前也没换过字体库,就交给了同事去做了;现在有时间就好好充实下自己(我写的也未必全对,如有不足可直接提出,相互探讨)在正式开始以前,你首先需要告知产品经理和设计师,因为引入新的字体库存在版权问题,需要对方授权方可使用,否则涉及侵权;如果产品确定一定要改的话,请产品和设计提供相关字体库业务需求&实现业务需求业务实现静态实现动态实现基础认知厂商字体小米(Misans)华为(HarmonyOSSans)OPPO(OPPOSANS)原理兴趣开篇前没想到写一篇基础版的字体库相关内容,用了小俩天时间,越写越多,也参考了十几篇bl

Android开发修炼之路——(一)Android App开发基础-3

本专栏文章:Android开发修炼之路——(一)AndroidApp开发基础-1Android开发修炼之路——(一)AndroidApp开发基础-23App的设计规范本节介绍了App工程的源码设计规范,首先App将看得见的界面设计与看不见的代码逻辑区分开,然后利用XML标记描绘应用界面,同时使用Java代码书写程序逻辑,从而形成App前后端分离的设计规约,有利于提高App集成的灵活性。3.1 界面设计与代码逻辑手机的功能越来越强大,某种意义上相当于微型电脑,比如打开一个电商App,仿佛是在电脑上浏览网站。网站分为用户看得到的网页,以及用户看不到的Web后台;App也分为用户看得到的界面,以及用

【C++练级之路】【Lv.7】【STL】vector类的模拟实现

快乐的流畅:个人主页个人专栏:《C语言》《数据结构世界》《进击的C++》远方有一堆篝火,在为久候之人燃烧!文章目录引言一、成员变量二、默认成员函数2.1constructor2.2destructor2.3copyconstructor2.4operator=三、迭代器3.1begin3.2end四、元素访问4.1operator[]五、容量5.1size5.2capacity5.3reserve5.4resize5.5empty六、修改6.1push_back6.2pop_back6.3insert6.4erase6.5swap总结引言关于STL容器的学习,我们来到了运用最广泛、最常见的ve