草庐IT

leetcode,es热词更新和词频统计

Risotto_nero 2023-06-07 原文

777. 在LR字符串中交换相邻字符
我觉得这道题的题解是找规律。
XL->LX,RX->XR
如果X的右边是L,则x右移一位,L左移一位;如果x的左边是R,则R右移一位,x左移一位。除去x,start和end其他字符L、R的相对位置(顺序)不变。而且L在start的位置一定比end的位置大,R在start的位置一定比end的位置小。
RXXLRXRXL
XRLXXRRLX

“XLXRRXXRXX”
“LXXXXXXRRR”

“XXXXXLXXXX”
“LXXXXXXXXX”

“XXXLXXXXXX”
“XXXLXXXXXX”

“LXXLXRLXXL”
“XLLXRXLXLX”

跳过所有的x,看两个字符串是否满足这两条规律,满足则可以变化。

bool canTransform(string start, string end) {
        int m=start.size(),n=end.size(),i=0,j=0;
        if(m!=n){
            return false;
        }
        while(i<m&&j<n){
            while(start[i]=='X'&&i<m){
                i++;
            }
            while(end[j]=='X'&&j<n){
                j++;
            }
            if(i<m&&j<n){
                if(start[i]!=end[j]){
                    return false;
                }else{
                    if((start[i]=='L'&&i>=j)||(start[i]=='R'&&j>=i)){
                        i++;j++;
                    }else{
                        return false;
                    }
                } 
            }
        }
        while(i<m){
            if(start[i]!='X'){
                return false;
            }
            i++;
        }
        while(j<n){
            if(end[j]!='X'){
                return false;
            }
            j++;
        }
        return true;
    }

热词更新

elasticsearch的ik分词器通过配置远程扩展词典和停用词典实现热更新,不用重启es。
首先在elasticsearch/config/analysis-ik/cat IKAnalyzer.cfg.xml配置远程词典,就是一个url地址,可以搭建一个项目访问静态文件,直接在服务器设置默认网站并在文件夹下创建词典也可以。

根据ik分词器的介绍,自动更新需要在header中设置两个标识。

不过浏览器会自动添加,所以可以不做配置。

热词更新

重启es,看到命令行加载了词典里的词就可以。如果遇见乱码,可以看下面的博客。
es中文乱码
用GET http://xxxx:9200/_analyze测试

{
    "text":["蔡徐坤"],
    "analyzer":"ik_smart"
}


中文停用词库
因为ik分词词库更新之后,不会对历史数据重新构建索引,因此需要处理。
历史数据更新

因为数据有点多,所以我使用这条命令POST http://xxxx:9200/tieba/_update_by_query?slices=9&refresh&wait_for_completion=false
这样可以不用等待命令执行完毕。

es的词频统计

首先要开启字段的fielddata属性为true。
PUT http://xxxx:9200/tieba/_mapping

{
  "properties": {
   "res_content": { 
      "type":     "text",
      "analyzer":"ik_smart",
      "fielddata": true
    }
  }
}

然后就可以利用es的词频统计功能。
POST http://xxxx:9200/tieba/_search

{
    "size":0,
  "aggs":{
    "messages" : {   
        "terms" : {   
              "size" : 10,
             "field" : "res_content",
             
           }  
       }  
  }
}

返回前十个频率最高的词。

{
	"took": 155,
	"timed_out": false,
	"_shards": {
		"total": 3,
		"successful": 3,
		"skipped": 0,
		"failed": 0
	},
	"hits": {
		"total": {
			"value": 414,
			"relation": "eq"
		},
		"max_score": null,
		"hits": []
	},
	"aggregations": {
		"messages": {
			"doc_count_error_upper_bound": 24,
			"sum_other_doc_count": 13596,
			"buckets": [
				{
					"key": "捏",
					"doc_count": 52
				},
				{
					"key": "想",
					"doc_count": 43
				},
				{
					"key": "学校",
					"doc_count": 42
				},
				{
					"key": "学",
					"doc_count": 38
				},
				{
					"key": "专业",
					"doc_count": 36
				},
				{
					"key": "校区",
					"doc_count": 31
				},
				{
					"key": "赢",
					"doc_count": 30
				},
				{
					"key": "专",
					"doc_count": 26
				},
				{
					"key": "同学",
					"doc_count": 25
				},
				{
					"key": "都是",
					"doc_count": 25
				}
			]
		}
	}
}

可以看到还有许多停用词比如"都是",“捏”,“想”,而且很多单字,效果还是不佳。

leetcode

811. 子域名访问计数
这题不难,但是c++字符串的分割真不如python方便。
字符串转数字stoi
数字转字符串to_string
auto &&,auto &,const auto &

vector<string> subdomainVisits(vector<string>& cpdomains) {
        map<string,int> m;
        int n=cpdomains.size(),i=0;
        vector<string> v;
        while(i<n){
            string cur=cpdomains[i++];
            int space=cur.find(' ');
            string tmp=cur.substr(space+1);
            int count=stoi(cur.substr(0,space));
            m[tmp]+=count;
            for(int j=0;j<tmp.size();j++){
                if(tmp[j]=='.'){
                    string t2=tmp.substr(j+1);
                    m[t2]+=count;
                }
            }
        }
        for(auto p:m){
            v.push_back(to_string(p.second)+" "+p.first);
        }
        return v;
    }

Django静态文件访问

settings.py文件配置路径

MEDIA_ROOT = os.path.join(BASE_DIR, 'media')
MEDIA_URL = "/media/"

urls.py配置路由

from django.urls import path, include, re_path
from sentimentSys import settings
from django.views.static import serve
urlpatterns = [
	re_path('media/(?P<path>.*)$', serve, {"document_root": settings.MEDIA_ROOT})
]

有关leetcode,es热词更新和词频统计的更多相关文章

  1. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  2. ruby-on-rails - 使用 rails 4 设计而不更新用户 - 2

    我将应用程序升级到Rails4,一切正常。我可以登录并转到我的编辑页面。也更新了观点。使用标准View时,用户会更新。但是当我添加例如字段:name时,它​​不会在表单中更新。使用devise3.1.1和gem'protected_attributes'我需要在设备或数据库上运行某种更新命令吗?我也搜索过这个地方,找到了许多不同的解决方案,但没有一个会更新我的用户字段。我没有添加任何自定义字段。 最佳答案 如果您想允许额外的参数,您可以在ApplicationController中使用beforefilter,因为Rails4将参数

  3. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  4. ES基础入门 - 2

    ES一、简介1、ElasticStackES技术栈:ElasticSearch:存数据+搜索;QL;Kibana:Web可视化平台,分析。LogStash:日志收集,Log4j:产生日志;log.info(xxx)。。。。使用场景:metrics:指标监控…2、基本概念Index(索引)动词:保存(插入)名词:类似MySQL数据库,给数据Type(类型)已废弃,以前类似MySQL的表现在用索引对数据分类Document(文档)真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear

  5. Python 刷Leetcode题库,顺带学英语单词(31) - 2

    ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem

  6. objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2

    我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作,但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U

  7. ruby-on-rails - Rails Associations 的更新方法是什么? - 2

    这太简单了,太荒谬了,我在任何地方都找不到关于它的任何信息,包括API文档和Rails源代码:我有一个:belongs_to关联,我开始理解当您没有关联时您在Controller中调用的正常模型方法与您有关联时调用的方法略有不同。例如,我的关联在创建Controller操作时运行良好:@user=current_user@building=Building.new(params[:building])respond_todo|format|if@user.buildings.create(params[:building])#etcetera但我找不到关于更新如何工作的文档:@user

  8. ruby-on-rails - OSX Yosemite 更新破坏了 pow.cx - 2

    升级到OSXYosemite后,我现有的pow.cx安装不起作用。升级到最新的pow.cx无效。通过事件监视器重新启动它也没有成功。 最佳答案 卸载(!)并重新安装解决了这个问题。curlget.pow.cx/uninstall.sh|shcurlget.pow.cx|sh 关于ruby-on-rails-OSXYosemite更新破坏了pow.cx,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

  9. ruby - 将 Gitlab 从 9.3.7 更新到 9.3.8 安装 re2 时出错 - 2

    我们在Ubuntu14.04和Gitlab9.3.7上运行,运行良好。我们正在尝试更新到Gitlabv9.3.8的最新安全补丁,但它给我们这个错误:Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension.currentdirectory:/home/git/gitlab/vendor/bundle/ruby/2.3.0/gems/re2-1.0.0/ext/re2/usr/local/bin/ruby-r./siteconf20170720-19622-15i0edf.rbextconf.rbcheckingformain(

  10. ruby-on-rails - Rails 更新属性 - 2

    我遇到了以下问题。我有一个名为user的模型,它有一个名为activated的列。我试图通过激活的方法更新该值?但它给我错误:验证失败:密码不能为空,密码太短(最少6个字符)这对我来说没有意义,因为我没有接触密码字段!我只想更新激活的列。我把我认为相关的代码放在这里,但如果你认为你需要更多,请问:)非常感谢您!型号:attr_accessor:passwordattr_accessible:name,:email,:password,:password_confirmation,:activatedhas_many:sucu_votesemail_regex=/\A[\w+\-.]+@

随机推荐