linux - 确定特定术语的词频

coder 2023-06-16 原文

我是一名非计算机科学专业的学生，正在撰写一篇历史论文，其中涉及确定特定术语在大量文本中的出现频率，然后绘制这些出现频率随时间变化的曲线以确定变化和趋势。虽然我已经弄清楚如何确定给定文本文件的词频，但我正在处理(相对而言，对我而言)大量文件(> 100)并且为了一致性起见，我想限制频率计数中包含的词一组特定的术语(有点像“停止列表”的反义词)

这应该保持非常简单。最后，我只需要知道我处理的每个文本文件的特定单词的频率，最好是电子表格格式(制表符分隔的文件)，这样我就可以使用该数据创建图表和可视化效果。

我每天都使用 Linux，习惯使用命令行，并且喜欢开源解决方案(或者我可以使用 WINE 运行的解决方案)。然而，这不是必需的:

我看到有两种方法可以解决这个问题:

找到一种方法去除文本文件中除预定义列表之外的所有单词，然后从那里进行频率计数，或者:
找到一种方法来仅使用预定义列表中的术语进行频率计数。

有什么想法吗？

最佳答案

我会选择第二个想法。这是一个简单的 Perl 程序，它将从提供的第一个文件中读取单词列表，并以制表符分隔格式打印第二个文件中每个单词的计数。第一个文件中的单词列表应每行一个。

#!/usr/bin/perl

use strict;
use warnings;

my $word_list_file = shift;
my $process_file = shift;

my %word_counts;

# Open the word list file, read a line at a time, remove the newline,
# add it to the hash of words to track, initialize the count to zero
open(WORDS, $word_list_file) or die "Failed to open list file: $!\n";
while (<WORDS>) {
  chomp;
  # Store words in lowercase for case-insensitive match
  $word_counts{lc($_)} = 0;
}
close(WORDS);

# Read the text file one line at a time, break the text up into words
# based on word boundaries (\b), iterate through each word incrementing
# the word count in the word hash if the word is in the hash
open(FILE, $process_file) or die "Failed to open process file: $!\n";

while (<FILE>) {
  chomp;
  while ( /-$/ ) {
    # If the line ends in a hyphen, remove the hyphen and
    # continue reading lines until we find one that doesn't
    chop;
    my $next_line = <FILE>;
    defined($next_line) ? $_ .= $next_line : last;
  }

  my @words = split /\b/, lc; # Split the lower-cased version of the string
  foreach my $word (@words) {
    $word_counts{$word}++ if exists $word_counts{$word};
  }
}
close(FILE);

# Print each word in the hash in alphabetical order along with the
# number of time encountered, delimited by tabs (\t)
foreach my $word (sort keys %word_counts)
{
  print "$word\t$word_counts{$word}\n"
}

如果文件 words.txt 包含:

linux
frequencies
science
words

并且文件 text.txt 包含您的帖子的文本，以下命令:

perl analyze.pl words.txt text.txt

将打印:

frequencies     3
linux   1
science 1
words   3

请注意，使用\b 打破单词边界可能不会在所有情况下都按照您想要的方式工作，例如，如果您的文本文件包含跨行连字符的单词，您需要做一些更智能的事情来匹配这些.在这种情况下，您可以检查一行中的最后一个字符是否是连字符，如果是，只需删除连字符并阅读另一行，然后再将该行拆分为单词。

编辑:更新版本处理不区分大小写的单词和跨行处理带连字符的单词。

请注意，如果有带连字符的单词，其中一些被跨行断开，而另一些则没有，这将无法找到所有单词，因为它只删除了行尾的连字符。在这种情况下，您可能只想删除所有连字符并在删除连字符后匹配单词。您只需在 split 函数之前添加以下行即可:

s/-//g;

关于linux - 确定特定术语的词频，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/315667/

linux 确定连字符连字单词 text analysis frequency word-frequency

有关linux - 确定特定术语的词频的更多相关文章

ruby - 即时确定方法的可见性 - 2
我正在编写一个方法，它将在一个类中定义一个实例方法；类似于attr_accessor:classFoocustom_method(:foo)end我通过将custom_method函数添加到Module模块并使用define_method定义方法来实现它，效果很好。但我无法弄清楚如何考虑类(class)的可见性属性。例如，在下面的类中classFoocustom_method(:foo)privatecustom_method(:bar)end第一个生成的方法(foo)必须是公共(public)的，第二个(bar)必须是私有(private)的。我怎么做？或者，如何找到调用我的cust
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
Ruby - 如何在读取文件时跳过/忽略特定行？ - 2
在读取/解析文件(使用Ruby)时忽略某些行的最佳方法是什么？我正在尝试仅解析Cucumber.feature文件中的场景，并希望跳过不以Scenario/Given/When/Then/And/But开头的行。下面的代码有效，但它很荒谬，所以我正在寻找一个聪明的解决方案:)File.open(file).each_linedo|line|line.chomp!nextifline.empty?nextifline.include?"#"nextifline.include?"Feature"nextifline.include?"Inorder"nextifline.include?
ruby-on-rails - 如何处理 Grape 中特定操作的过滤器之前？ - 2
我正在我的Rails项目中安装Grape以构建RESTfulAPI。现在一些端点的操作需要身份验证，而另一些则不需要身份验证。例如，我有users端点，看起来像这样:moduleBackendmoduleV1classUsers现在如您所见，除了password/forget之外的所有操作都需要用户登录/验证。创建一个新的端点也没有意义，比如passwords并且只是删除password/forget从逻辑上讲，这个端点应该与用户资源。问题是Grapebefore过滤器没有像except,only这样的选项，我可以在其中说对某些操作应用过滤器。您通常如何干净利落地处理这种情况？
ruby - 确定 ruby 脚本是否已经在运行 - 2
有没有一种简单的方法可以判断ruby脚本是否已经在运行，然后适本地处理它？例如:我有一个名为really_long_script.rb的脚本。我让它每5分钟运行一次。当它运行时，我想看看之前运行的是否还在运行，然后停止第二个脚本的执行。有什么想法吗？最佳答案 ps是一种非常糟糕的方法，并且可能会出现竞争条件。传统的Unix/Linux方法是将PID写入文件(通常在/var/run中)并在启动时检查该文件是否存在。例如pid文件位于/var/run/myscript.pid然后你会在运行程序之前检查它是否存在。有一些技巧可以避免
ruby - 确定字符串的结尾是否与单独的字符串的开头重叠 - 2
我想查找字符串的结尾是否与单独字符串的开头重叠。例如，如果我有这两个字符串:string_1='Peoplesaynothingisimpossible,butI'string_2='butIdonothingeveryday.'如何找到string_1末尾的“butI”部分与string_2开头相同？我可以编写一个方法来遍历这两个字符串，但我希望得到一个包含我错过的Ruby字符串方法或Ruby习惯用法的答案。最佳答案将MARKER设置为一些从未出现在您的string_1和string_2中的字符串。有一些方法可以动态地做到这一
ruby-on-rails - Ruby on Rails - 需要在每周的特定时间将消息发送到电子邮件 - 2
我想知道我应该如何着手这个项目。我需要每周向人们发送一次电子邮件。但是，这必须在每周的特定时间自动生成并发送。编码有多难？我需要知道是否有任何书籍可以提供帮助，或者你们中的任何人是否可以指导我。它必须使用rubyonrails进行编程。因此有一个网络服务和数据库集成。干杯最佳答案为什么这么复杂？您只需安排工作。您可以使用Delayed::Job例如。Delayed::Job让您可以使用run_at符号在特定时间安排作业，如下所示:Delayed::Job.enqueue(SendEmailJob.new(...),:run_
ruby-on-rails - 如果特定语言环境中缺少翻译，如何配置 i18n 以使用 en 语言环境？ - 2
如果特定语言环境中缺少翻译，如何配置i18n以使用en语言环境翻译？当前已插入翻译缺失消息。我正在使用RoR3.1。最佳答案找到相似的question这里是答案:#application.rb#railswillfallbacktoconfig.i18n.default_localetranslationconfig.i18n.fallbacks=true#railswillfallbacktoen,nomatterwhatissetasconfig.i18n.default_localeconfig.i18n.fallback
ruby - 根据要求使用特定的 VCR 磁带 - 2
情况:使用Rspec、FactoryGirl和VCR测试Rails应用程序。每次创建用户时，都会通过Stripe的API创建关联的Stripe客户。测试时，添加VCR.use_cassette或describe"...",vcr:{cassette_name:'stripe-customer'}do...到涉及用户创建的每个规范。我的实际解决方案如下:RSpec.configuredo|config|config.arounddo|example|VCR.use_cassette('stripe-customer')do|cassette|example.runendendend但这是
ruby - 从特定索引开始迭代数组 - 2
我想从特定索引开始遍历数组。我该怎么做？myj.eachdo|temp|...end 最佳答案执行以下操作:your_array[your_index..-1].eachdo|temp|###end 关于ruby-从特定索引开始迭代数组，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/44151758/

linux - 确定特定术语的词频

有关linux - 确定特定术语的词频的更多相关文章

随机推荐