草庐IT

使用python爬取豆瓣电影短评评论内容

需求:爬取豆瓣电影短评评论文本内容目标:将爬取的文本存入excel中爬虫步骤:1.拼接分页网址,循环请求分页数据,获取HTML代码2.分析获取到的HTML代码,解析出所需要的数据,提取内容3.存储爬取到的数据准备工作:1.开发工具pycharm2.模块requests、bs4或pyquery 爬虫实际流程:第一步:我们从豆瓣电影中选取一部电影(https://movie.douban.com/subject/35766491/),进入短评列表页面(https://movie.douban.com/subject/35766491/comments?status=P)第二步:打开f12开发者工具

导入方案的思考

导入的背景用户为了更方便进行批量的数据处理,系统提供导入功能来满足该需求。对研发人员来说,导入等价于批量处理数据。导入存在的问题系统层面:导入数据过多,导致内存溢出(OOM),系统负载飙升。大批量的事务提交。如果有对外依赖,外部依赖不稳定将导致整个导入超时耗时。用户层面:导入耗时过长,只能等待,无法做其他事情。如果存在超时的情况那更加难以接受。系统异常时,无法了解导入的结果。方案从用户层面的问题来看,长时间等待和无法了解导入的结果是无法忍受的。所以系统应该对导入任务进行异步处理,并提供导入结果查询。从系统层面的问题来讲,既然是批量任务,那我们可以将其分解为小批量任务来处理。一个实际的案例背景:

导入方案的思考

导入的背景用户为了更方便进行批量的数据处理,系统提供导入功能来满足该需求。对研发人员来说,导入等价于批量处理数据。导入存在的问题系统层面:导入数据过多,导致内存溢出(OOM),系统负载飙升。大批量的事务提交。如果有对外依赖,外部依赖不稳定将导致整个导入超时耗时。用户层面:导入耗时过长,只能等待,无法做其他事情。如果存在超时的情况那更加难以接受。系统异常时,无法了解导入的结果。方案从用户层面的问题来看,长时间等待和无法了解导入的结果是无法忍受的。所以系统应该对导入任务进行异步处理,并提供导入结果查询。从系统层面的问题来讲,既然是批量任务,那我们可以将其分解为小批量任务来处理。一个实际的案例背景:

CDH6.3.0上配置各种对象存储

cm-hdfs:ufile:还需添加jar包  S3:是自带jar包  OSS:CDH6.3.0不需要下载包,CDH5需要core-site.xml的群集范围高级配置代码段(安全阀)    fs.oss.endpointoss-eu-west-1.aliyuncs.com       #oss的外网地址fs.oss.accessKeyId fs.oss.accessKeySecret fs.oss.implorg.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystemfs.oss.buffer.dir/tmp/ossfs.oss.connection.s

CDH6.3.0上配置各种对象存储

cm-hdfs:ufile:还需添加jar包  S3:是自带jar包  OSS:CDH6.3.0不需要下载包,CDH5需要core-site.xml的群集范围高级配置代码段(安全阀)    fs.oss.endpointoss-eu-west-1.aliyuncs.com       #oss的外网地址fs.oss.accessKeyId fs.oss.accessKeySecret fs.oss.implorg.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystemfs.oss.buffer.dir/tmp/ossfs.oss.connection.s

PHP命名空间(Namespace)的使用详解

命名空间一个最明确的目的就是解决重名问题,PHP中不允许两个函数或者类出现相同的名字,否则会产生一个致命的错误。这种情况下只要避免命名重复就可以解决,最常见的一种做法是约定一个前缀。例:项目中有两个模块:article和messageboard,它们各自有一个处理用户留言的类Comment。之后我可能想要增加对所有用户留言的一些信息统计功能,比如说我想得到所有留言的数量。这时候调用它们Comment提供的方法是很好的做法,但是同时引入各自的Comment类显然是不行的,代码会出错,在另一个地方重写任何一个Comment也会降低维护性。那这时只能重构类名,我约定了一个命名规则,在类名前面加上模块

PHP命名空间(Namespace)的使用详解

命名空间一个最明确的目的就是解决重名问题,PHP中不允许两个函数或者类出现相同的名字,否则会产生一个致命的错误。这种情况下只要避免命名重复就可以解决,最常见的一种做法是约定一个前缀。例:项目中有两个模块:article和messageboard,它们各自有一个处理用户留言的类Comment。之后我可能想要增加对所有用户留言的一些信息统计功能,比如说我想得到所有留言的数量。这时候调用它们Comment提供的方法是很好的做法,但是同时引入各自的Comment类显然是不行的,代码会出错,在另一个地方重写任何一个Comment也会降低维护性。那这时只能重构类名,我约定了一个命名规则,在类名前面加上模块