cv算法工程师成长路线

armcvai 2023-03-28 原文

文章同步发于 github 仓库和 csdn 博客，最新版以 github 为主。如果看完文章有所收获，一定要先点赞后收藏。毕竟，赠人玫瑰，手有余香.

本文内容为 cv 算法工程师成长子路上的经典学习教材汇总，对于一些新兴领域则给出了较好的博客文章链接。本文列出的知识点目录是成系统且由浅至深的，可作为 cv 算法工程师的常备学习路线资料。

文章所涉知识点和参考资料内容很多也很广，建议先看目录，心中有个大概知识点结构，后面由浅入深，慢慢学习各个知识点，由浅入深，切忌浮躁。

部分学习资料存在离线 PDF 电子版，其可在 github仓库-cv_books 中下载。如果仓库失效，可以关注我的公众号-嵌入式视觉，后台回复对应关键字下载高清 PDF 电子书。

前言

课程学习方法，三句话总结：

看授课视频形成概念，发现个人感兴趣方向。
读课程笔记理解细节，夯实工程实现的基础。
码课程作业实现算法，积累实验技巧与经验。

再引用一下学习金字塔的图：

图片来源 github 仓库 DeepLearning Tutorial

关于科研和研发的思考，可参考文章-中国人民大学赵鑫：AI 科研入坑指南。

一，计算机系统

1.1，计算机系统书籍

《深入理解计算机系统第三版》：网上有电子版，PDF 电子书下载方式在文章首页。

1.2，设计模式教程

设计模式：内容很全，存在 C++ 示例代码。

二，编程语言

2.1，C++ 学习资料

cpp reference: C++ 库接口参考标准文档，官方文档，包含各个函数定义及使用 example。
http://www.cplusplus.com/reference/stl/
Cpp Primer 学习: 《C++ Primer 中文版（第 5 版）》学习仓库，包括笔记和课后练习答案。
C++ Tips of the Week: 谷歌出品的 C++ 编程技巧。

2.2，Python 学习资料

《廖雪峰-Python3教程》: 内容很全且通俗易懂，适合初学者，但代码示例不够丰富。描述的知识点有：Python 基础、函数、高级特性、函数式编程、模块、面向对象编程、面向对象高级编程、错误、调试和测试、IO 编程、进程和线程、正则表达式、常用内建模块、常用第三方模块、图形界面、网络编程、异步IO 等内容。电子书可在github仓库-cv_books 中下载。
Python 工匠系列文章: 很适合深入理解 Python 面向对象编程、装饰器、模块、异常处理等内容。

三，数据结构与算法

3.1，数据结构与算法课程

《图解算法》：存在 PDF 电子版，内容较为基础且通俗易懂，适合快速了解数据结构与算法的基础知识，但深度不够，示例代码为 Python。
专栏-数据结构与算法之美: 学习数据结构与算法的知识点课程，内容全且深度足够。官方例子为 java 代码，同时 github 仓库提供 C/C++/GO/Python 等代码。

3.2，算法题解

《剑指Offer》面试题: Python实现: 题目为《剑指Offer》书籍原题，代码实现为 Python，仓库简洁，阅读体验不错，无任何广告，适合刚学完数据结构与算法基础知识的同学。
力扣++-算法图解: leetcode 高频题图解，题解分析很多，部分题目有动画分析，提供 Python/Java/C++ 实现，但也存在部分题解分析废话较多，不够精简的问题。
小浩算法: 一部图解算法题典，讲解 105 道高频面试算法题目，go 代码实现。
LeetCode题解: leetcode 高频题题解，全书代码默认使用 C++11 语法编写，题解为文字性描述，题解分析较短且不够通俗易懂。本书的目标读者是准备去硅谷找工作的码农，也适用于在国内找工作的码农，以及刚接触 ACM 算法竞赛的新手。

四，机器学习

4.1，机器学习课程

《机器学习》-周志华（西瓜书）：存在 PDF 电子版，内容很全，很适合打下扎实的基础。
《李宏毅-机器学习课程》: 机器学习经典视频教程啊，非常适合初学者观看。
李宏毅机器学习笔记(LeeML-Notes): 可以在线阅读，很方便，内容完成度高。
《南瓜书PumpkinBook》: 南瓜书，是西瓜书的补充资料，包含了西瓜书的公式的详细推导，建议先看西瓜书，部分公式不会推导的情况下，可以查看南瓜书的对应内容。
机器学习数学基础: 黄海广博士翻译的 CS229 机器学习课程的线性代数基础材料，英文好的建议看原版。

五，深度学习

想要快速入门神经网络（深度学习）或者重新复习基础的同学，推荐看这个文章合集Neural Networks From Scratch。文章内容由浅入深，既有公式推导，也有对应代码实现。

5.1，深度学习课程

《深度学习》（花书），存在英文和中文 PDF 电子版，内容成系统，覆盖了深度学习的方方面面，强烈建议至少看完跟自己方向相关的章节，有利于打好扎实的基础。
《李宏毅-深度学习课程》：经典视频教程，实例有趣（皮卡丘），内容讲解由浅至深，李宏毅老师个人官网也提供了视频链接、 PPT 课件、代码资料。

5.2，深度学习基础文章

5.3，经典CNN分析文章

1，VGGNet 拥有 5 段卷积，每一段有 2~3 个卷积层，同时每段尾部会连接一个最大池化层用来缩小图片尺寸，每段内的卷积核数量相同，越靠后的段的卷积核数量越多：64-128-256-512-512。ResNet 网络拥有 4 段卷积，每段卷积代表一个残差学习 Blocks，根据网络层数的不同， Blocks 的单元数量不同，例如 ResNet18 的 Blocks 单元数量分别为2、2、2 和 2。越靠后的段的卷积核数量越多：64-128-256-512，残差学习 Blocks 内的卷积核通道数是相同的。

2，ResNet v2 创新点在于通过理论分析和实验证明恒等映射对于残差块的重要性，根据激活函数与相加操作的位置关系，我们称之前的组合方式（ResNet）为“后激活（post-activation）”，现在新的组合方式（ResNet v2）称之为“预激活（pre-activation）”。使用预激活有两个方面的优点：1)f 变为恒等映射，使得网络更易于优化；2)使用 BN 作为预激活可以加强对模型的正则化。

5.4，PyTorch 框架学习文章

PyTorch中文文档；PyTorch官方教程中文版；PyTorch 官方教程。
PyTorch_tutorial_0.0.5_余霆嵩: 存在开源 PDF 电子版，且提供较为清晰的代码，适合快速入门，教程目录结构清晰明了。

5.5，PyTorch/Caffe 框架分析文章

pytorch自定义层如何实现？超简单！
【PyTorch】torch.nn.Module 源码分析
详解Pytorch中的网络构造，模型save和load，.pth权重文件解析
半小时学会 PyTorch Hook
详解Pytorch中的网络构造
深度学习与Pytorch入门实战（九）卷积神经网络&Batch Norm
Pytorch 里 nn.AdaptiveAvgPool2d(output_size) 原理是什么?
caffe源码解析-开篇
《Caffe官方教程中译本》：存在开源 PDF 电子版。

六，计算机视觉

6.1，数字图像处理教程

《数字图像处理第四版》：存在开源 PDF 电子版。成系统的介绍了数字图像的原理及应用，内容多且全、深度也足够，非常适合深入理解数学图像原理，可挑重点看。
桔子code-OpenCV-Python教程

6.2，计算机视觉基础课程

《CS231 课程》-李飞飞。b 站视频教程；CS231n官方笔记授权翻译总集。课程非常经典，内容深入浅出，每节课都有课后作业和对应学习笔记。
《动手学深度学习》-李沐，存在开源 PDF 电子书，官方代码为 MXNet 框架实现，github 上有开源的《动⼿手学深度学习 PYTORCH 版》。
《解析卷积神经网络-深度学习实践手册》-魏秀参：对 CNN 对基础部件做了深入描述，本书内容全且成系统，适合想深入学习 CNN 的同学，唯一的缺点没有项目案例以供实践。本书提供开源 PDF 电子版。

6.3，深度学习模型和资源库

Papers with code 是由 Meta AI Research 团队主导的一个开放资源的社区，汇集了深度学习论文、数据集、算法代码、模型以及评估表。

Jetson Zoo，是一个开源目录，其中包含在 NVIDIA Jetson 硬件平台上开发指南以及参考案例分享汇总。模型库资源里包括图像分类、目标检测、语义分割和姿势估计等方向的实践分享，提供开源代码和开发指南文章的链接。

Model Zoo 包含了机器学习各领域的算法框架及预训练模型资源汇总，其中包括 TensorFlow、PyTorch、Keras、Caffe等框架，作者是 Google 的机器学习研究员的Jing Yu Koh构建。

MediaPipe 是一个为直播和流媒体提供跨平台、可定制的机器学习解决方案的框架。MediaPipe 提供了包括人脸检测、人脸网格、虹膜识别、手部关键点检测、人体姿态估计、人体+人脸+手部组合整体、头发分割、目标检测、Box 跟踪、即时运动追踪、3D 目标检测等解决方案。

Deci 旨在使用 AI 构建更好的 AI，使深度学习能够发挥其真正的潜力。借助该公司的端到端深度学习加速平台，人工智能开发人员可以为任何环境（包括云、边缘或移动）构建、优化和部署更快、更准确的模型。借助 Deci 的平台，开发人员可以在任何硬件上将深度学习模型推理性能提高 3 到 15 倍，同时仍然保持准确性。平台除了能够显示每个模型的准确性之外，还可以轻松选择目标推理硬件并查看模型的运行时性能结果，例如各种硬件的吞吐量、延迟、模型大小和内存占用。但是模型加速模块的 demo 是需要注册账户和购买的。

6.4，目标检测网络文章

6.5，语义分割文章

6.6，3D 视觉技术文章

6.7，深度学习的评价指标文章

七，模型压缩与量化

7.1，轻量级网络设计

轻量卷积神经网络的设计

网络结构碎片化更多是指网络中的多路径连接，类似于 short-cut，bottle neck 等不同层特征融合，还有如 FPN 等结构。拖慢并行的一个很主要因素是，运算快的模块总是要等待运算慢的模块执行完毕。

7.2，模型压缩文章

7.3，神经网络量化文章

1，量化是指用于执行计算并以低于浮点精度的位宽存储张量的技术，或者说量化就是将神经网络的浮点算法转换为定点。量化模型对张量使用整数而不是浮点值执行部分或全部运算。

2，量化简单来说就是将浮点存储（运算）转换为整型存储（运算）的一种模型压缩技术。

3，虽然精心设计的 MobileNet 能在保持较小的体积时仍然具有与 GoogleNet 相当的准确度，不同大小的 MobileNet 本身就表明——也许一个好的模型设计可以改进准确度，但同类模型中仍然是更大的网络，更好的效果!

4，权重值域调整是另一个机器学习过程，学习的目标是一对能在量化后更准确地运行网络的超参数 min/max。

7.4，推理框架剖析文章

八，高性能计算

8.1，CPU/GPU/AI 芯片科普

8.2，指令集(ISA)学习资料

Neon 是 ARM 平台的向量化计算指令集，通过一条指令完成多个数据的运算达到加速的目的，或者说 Neon 是 ARM 平台的 SIMD（Single Instruction Multiple Data，单指令多数据流）指令集实现。常用于AI、多媒体等计算密集型任务。

8.3，矩阵乘优化文章

移动端arm cpu优化学习笔记----一步步优化盒子滤波（Box Filter）
OpenBLAS gemm从零入门
通用矩阵乘（GEMM）优化算法
卷积神经网络中的Winograd快速卷积算法
知乎专栏-深入浅出GPU优化
CUDA GEMM 理论性能分析与 kernel 优化
OpenPPL 中的卷积优化技巧：概述总结类文章，无代码，非专注时刻也能阅读。
【张先轶】BLISlab学习优化矩阵乘。第一课
矩阵乘法与 SIMD

Winograd 是一种快速卷积算法，适用于小卷积核，可以减少浮点乘法的次数。

九，模型部署(算法SDK开发)

9.1，模型部署文章

效率工具

markdown/latex 写作

markdown语法大全: 这篇文章对 markdown 语法整理得很好，文章排版也做的好，读完很容易就掌握 markdown 语法。
通用 LaTeX 数学公式语法手册: 文章排版很好，目录结构清晰明了，阅读起来很舒服，推荐用来学习 latex 语法内容。
https://latex.codecogs.com/eqneditor/editor.php: 在线 latex 语法。

博客阅读后的知识点总结

1，为了尽可能地提高 MAC阵列 的利用率以及卷积运算效率，阵列控制模块会根据第一卷积参数矩阵的行数和第一卷积数据阵列的行数来确定第一乘法累加窗口的列数。

2，SNPE 开发流程：

3，目标检测模型效果提升方法：

以 Cascade RCNN 作为 baseline，以 Res2Net101 作为 Backbone；
Albumentation 库做数据集增强-用在模型训练中；
多尺度训练(MST Multi-scale training/testing)的升级版-SNIP方法(Scale Normalization for Image Pyramids)，用在 baseline 模型训练和测试中：解决模板大小尺度不一的问题；
DCN 可变性卷积网络-用在 baseline 模型的 backone 中；
soft-NMS：解决目标互相重叠的问题；
HTC 模型预训练， Adam 优化算法可以较好的适应陌生数据集，学习率热身(warm-up)来稳定训练过程。

4，SNIP 论文解读：

SNIP 非常 solid 地证明了就算是数据相对充足的情况下，CNN 仍然很难使用所有 scale 的物体。个人猜测是由于 CNN 中没有对于 scale invariant 的结构，CNN 能检测不同 scale 的“假象”，更多是通过CNN 来通过 capacity 来强行 memorize 不同 scale 的物体来达到的，这其实浪费了大量的 capacity，而 SNIP 这样只学习同样的 scale 可以保障有限的 capacity 用于学习语义信息。论文的关键贡献：发现现在的 CNN 网络无法很好的解决 scale invariance 的问题，提出了一个治标不治本的方法。

5，高效模型设计（模型压缩）方法：

一般而言，高效模型的设计有 6 大基本思路：1）轻量级架构、2）模型裁剪、3）AutoML 和 NAS 模型搜索、4）低精度量化、5）知识蒸馏、6）高效实现。

来源旷世学术分享-张祥雨：高效轻量级深度模型的研究和实践。

6，网络深度与宽度的理解及意义

更多理解参考知乎网络宽度对深度学习模型性能有什么影响？

在一定的程度上，网络越深越宽，性能越好。宽度，即通道(channel)的数量，网络深度，及 layer 的层数，如 resnet18 有 18 层网络。注意我们这里说的和宽度学习一类的模型没有关系，而是特指深度卷积神经网络的(通道)宽度。

网络深度的意义：CNN 的网络层能够对输入图像数据进行逐层抽象，比如第一层学习到了图像边缘特征，第二层学习到了简单形状特征，第三层学习到了目标形状的特征，网络深度增加也提高了模型的抽象能力。
网络宽度的意义：网络的宽度（通道数）代表了滤波器（3 维）的数量，滤波器越多，对目标特征的提取能力越强，即让每一层网络学习到更加丰富的特征，比如不同方向、不同频率的纹理特征等。

7，所有 Inception 模型都具有一个重要的性质——都是遵循拆分-变换-合并（split-transform-merge）的设计策略。

8，对于某种指令，延迟 latency 主要关注单条该指令的最小执行时间，吞吐量 throughout 主要关注单位时间内系统（一个CPU核）最多执行多少条该指令。因为 AI 计算的数据量比较大，所以更关注吞吐量。

9，CPU 高性能通用优化方法包括：

编译选项优化
内存性能和耗电优化：内存复用原则，小块快跑是内存设计的重要原则。
循环展开：循环的每次迭代都有一定的性能损失（分支指令）。但是现代 ARM 处理器具有分支预测的能力，它可以在执行条件之前预测是否将进入分支，从而降低性能损耗，这种情况下全部循环展开的的优势就减弱了。
并行优化和流水线重排：并行优化分为多线程核与核之间数据处理，以及单核心内部并行处理。从本质上讲，流水线重排也是一种并行优化。

10，卷积性能优化方式：卷积的计算方式有很多种，通用矩阵运算（GEMM）方式有良好的通用性，但是仅使用 GEMM 无法实现性能最优。除 GEMM 外，常用的优化方法还包括滑窗（Sliding Window）、快速傅里叶变换（Fast Fourier Transform, FFT）、Winograd 等。不同的方法适合不同的输入输出场景，最佳的办法就是对算子加入逻辑判断，将不同大小的输入分别导向不同的计算方法，以最合适的方法进行卷积计算。

大多数情况下，使用滑窗方法的计算性能还是无法和 GEMM 方法比较，但是一般当输入小于 $32\times 32$ 时，可以考虑采用滑窗的优化方式。
Winograd 是存在已久的性能优化算法，在大多数场景中，Winograd 算法都显示了较大的优势，其用更多的加法运算代替部分乘法运算，因为乘法运算耗时远高于加法运算。Winograd 适用于乘法计算消耗的时钟周期数大于加法运算消耗的时钟周期数的场景，且常用于 $3\times 3$ 卷积计算中。对于 CPU，一般来说，一次乘法计算消耗的时间是一次加法计算消耗时间的 6 倍。
FFT 方法不适合卷积核较小的 CNN 模型。

11，下图展示了如何在英伟达 GPU 架构发展史以及单块 GPU 上纵向扩展以满足深度学习的需求（截止2020年）。

12，Deep compression 论文阅读总结

deep compression 是解决存储问题，对于速度问题几乎没获得改善；
权值剪枝还得看另外一篇论文：learning both weights and connection for efficient neural network
CNN 模型的存储空间问题，主要还是在全连接层，若要改善 inference 速度，需要在卷积层下功夫。

13，Deep Compression 论文介绍的神经网络压缩方法，可分为三步：

剪枝：舍弃权重绝对值较小的权重，并将剩余权重以稀疏矩阵表示。
量化：将剪枝结果进行进一步量化，具体的是构建一组权值码本，使模型中的权值共享码本中的其中一个权重值，以减少每个权重保存所需的比特数。
霍夫曼编码（可选）：通过霍夫曼编码，进一步地压缩索引值以及权重数值地存储空间。

参考资料

DeepLearning Tutorial

算法工程师 code noopener li 程序人生

有关cv算法工程师成长路线的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
ruby - 在 Ruby 中实现 Luhn 算法 - 2
我一直在尝试用Ruby实现Luhn算法。我一直在执行以下步骤:该公式根据其包含的校验位验证数字，该校验位通常附加到部分帐号以生成完整帐号。此帐号必须通过以下测试:从最右边的校验位开始向左移动，每第二个数字的值加倍。将乘积的数字(例如，10=1+0=1、14=1+4=5)与原始数字的未加倍数字相加。如果总模10等于0(如果总和以零结尾)，则根据Luhn公式该数字有效；否则无效。http://en.wikipedia.org/wiki/Luhn_algorithm这是我想出的:defvalidCreditCard(cardNumber)sum=0nums=cardNumber.to_s.s
Ruby 斐波那契算法 - 2
下面是我写的一个计算斐波那契数列中的值的方法:deffib(n)ifn==0return0endifn==1return1endifn>=2returnfib(n-1)+(fib(n-2))endend它工作到n=14，但在那之后我收到一条消息说程序响应时间太长(我正在使用repl.it)。有人知道为什么会这样吗？最佳答案 Naivefibonacci进行了大量的重复计算-在fib(14)fib(4)中计算了很多次。您可以将内存添加到您的算法中以使其更快:deffib(n,memo={})ifn==0||n==1returnnen
ruby-on-rails - Rails add_index 算法 : :concurrently still causes database lock up during migration - 2
为了防止在迁移到生产站点期间出现数据库事务错误，我们遵循了https://github.com/LendingHome/zero_downtime_migrations中列出的建议。(具体由https://robots.thoughtbot.com/how-to-create-postgres-indexes-concurrently-in概述)，但在特别大的表上创建索引期间，即使是索引创建的“并发”方法也会锁定表并导致该表上的任何ActiveRecord创建或更新导致各自的事务失败有PG::InFailedSqlTransaction异常。下面是我们运行Rails4.2(使用Acti
ruby - 趋势算法 - 2
我正在开发一个类似微论坛的项目，其中一个特殊用户发布一条快速(接近推文大小)的主题消息，订阅者可以用他们自己的类似大小的消息来响应。直截了当，没有任何形式的“挖掘”或投票，只是每个主题消息的响应按时间顺序排列。但预计会有很高的流量。我们想根据它们引起的响应嗡嗡声来标记主题消息，使用0到10的等级。在谷歌上搜索了一段时间的趋势算法和开源社区应用示例，到目前为止已经收集到两个有趣的引用资料，但我还没有完全理解它们:Understandingalgorithmsformeasuringtrends，关于使用基线趋势算法比较维基百科页面浏览量的讨论，在SO上。TheBritneySpearsP
Ruby - 不支持的密码算法 (AES-256-GCM) - 2
我收到错误:unsupportedcipheralgorithm(AES-256-GCM)(RuntimeError)但我似乎具备所有要求:ruby版本:$ruby--versionruby2.1.2p95OpenSSL会列出gcm:$opensslenc-help2>&1|grepgcm-aes-128-ecb-aes-128-gcm-aes-128-ofb-aes-192-ecb-aes-192-gcm-aes-192-ofb-aes-256-ecb-aes-256-gcm-aes-256-ofbRuby解释器:$irb2.1.2:001>require'openssl';puts
python - python的进化路线图是什么 - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭11年前。在哪里可以找到python的中期或长期路线图。借此，我可以了解决策者最关心的是什么，以及他们眼中这门语言的future是什么？一段时间以来，我一直在玩弄Python和Ruby，制作我在开发中需要的中小型工具，通过比较不同但相似的语言来获得乐趣和学习。Python和Ruby的许多特性可以互换，或者易于模仿。两者都引入了一些函数式风格并且发展迅速(Py300
java实现Dijkstra算法 - 2
文章目录一.Dijkstra算法想解决的问题二.Dijkstra算法理论三.java代码实现一.Dijkstra算法想解决的问题解决的问题:求解单源最短路径,即各个节点到达源点的最短路径或权值考察其他所有节点到源点的最短路径和长度局限性:无法解决权值为负数的情况二.Dijkstra算法理论参数:S记录当前已经处理过的源点到最短节点U记录还未处理的节点dist[]记录各个节点到起始节点的最短权值path[]记录各个节点的上一级节点(用来联系该节点到起始节点的路径)Dijkstra算法步骤:(1）初始化:顶点集S:节点A到自已的最短路径长度为0。只包含源点，即S={A}顶点集U:包含除A外的其他顶
对于体育新闻中文文本关键字提取有哪些关键字提取算法及其步骤 - 2
对于体育新闻中文文本的关键字提取，常用的算法包括TF-IDF、TextRank和LDA等。它们的基本步骤如下：1.TF-IDF算法： -将文本进行分词和词性标注处理。-统计每个词在文本中的词频（TF）。-计算每个词在整个语料库中出现的文档频率（DF）和逆文档频率（IDF）。-计算每个词的TF-IDF值，并按照值的大小进行排序，选择排名前几的词作为关键字。2.TextRank算法：-将文本进行分词和词性标注处理。-将分词结果转化成图模型，每个词语为节点，根据词语之间的共现关系建立边。-对图模型进行迭代计算，计算每个节点的PageRank值，表示该节点的重要性。-选择排名前几的节点作为关键字。3.