php - 文本的索引词

coder 2024-04-22 原文

<分区>

我有这样的文字

*mmm* we have a dog
*ppp* we are going home
*SSS* we have gone home

在本文中，* 之间的文本是对页码和行码的书籍的引用。在这种情况下，我只是将其缩减为三个字母。

我想创建一个数组，每个单词作为键，行号作为值:

Array
(
    [we] => Array
    (
        [0]=>*mmm*,
        [1]=>*ppp*,
        [2]=>*SSS*
    )
    [have] => Array
    (
        [0] => *mmm*,
        [1] => *SSS*
    )
)

等等....

其次，我想创建一个数组，其中两个单词作为键，行号作为值

Array
(
    [we have] => array([0] => *mmm*, [1] => *SSS*),
    [have a] => array([0 => *mmm*),
    [a dog] => array([0] => *mmm*),
    [dog we] => array([0] => *mmm*),
    [we are] => array([0] => *ppp*)
)

请注意，当两个单词不在同一行时(如 [dog we])，应将第一个单词的引用用作值。

我想我找到了第一个问题的解决方案。我将文本转换为数组 $text = array ([0]=>*mmm*, [1]=>"we", [2]=>"have", 等等...

然后:

foreach ($text as $word)
{ 
    if($word[0] == "*")
    {
        $value = $word;
        continue;
    }
    else
    {
        $key = $word;
        if (array_key_exists($key,$dictionary))
        {
            array_push($dictionary[$key], $value);
        }
        else
        {
            $dictionary[$key] = array($value);
        }
    }
    return $dictionary;

为了创建一个包含两个单词的数组，我做了以下操作

foreach ($text as $word)
{ 
    if($word[0] == "*")
    {
        $value = $word;
        continue;
    }
    else
    {
        $key1 = $word;
        $key2 = $text[array_search($key1,$text)+1];
        if ($key2[0] == "*")
        {
            continue;
        }
    else
    {
        $key = $key1.$key2;
        if (array_key_exists($key,$dictionary))
        {
            array_push($dictionary[$key], $value);
        }
        else
        {
            $dictionary[$key] = array($value);
        }
    }
    return $dictionary;
}

由于 $key = $key1.$key2;，这不起作用。似乎当键是 [we have](如我们在 mmm 中的文本)和稍后键应该是 [we are] 该程序没有任何区别。事实上，每次第一个词是“我们”时，他都会自动添加第二个词“有”，即使它应该是"is"。因此，这意味着在遍历文本的每个单词时，$key1 不会恢复为零，但每次第一个单词是“we”时，该值将放在“we have”键下。

有人对此有解决方案，或者整个事情可以更简单地完成吗？

PS 我希望我没有忘记很多 {} 我在一个小屏幕上输入这个，没有很好的概览

php 文本 code section key arrays indexing

有关php - 文本的索引词的更多相关文章

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby-on-rails - 协会的 Rails 索引 - 2
我发现自己需要这个。假设cart是一个包含用户列表的模型。defindex_of_itemcart.users.each_with_indexdo|u,i|ifu==current_userreturniendend获取此类关联索引的更简单方法是什么？最佳答案 indexArray上的方法与您的index_of_item方法相同，例如cart.users.index(current_user)返回数组中第一个对象的索引==给obj。如果未找到匹配项，则返回nil。关于ruby-on-
ruby - Rails -- :id attribute? 所需的数据库索引 - 2
因此，当我遵循MichaelHartl的RubyonRails教程时，我注意到在用户表中，我们为:email属性添加了一个唯一索引，以提高find的效率方法，因此它不会逐行搜索。到目前为止，我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而，我们从未为:id属性设置索引。:id是否自动索引，因为它在默认情况下是唯一的并且本质上是顺序的？或者情况并非如此，我应该为:id搜索添加索引吗？最佳答案大多数数据库(包括sqlite，这是RoR中的默认数据库)会自动索引主键，对于RailsMigration
ruby-on-rails - rspec - 我怎样才能让 "pendings"有我的文本而不仅仅是 "No reason given" - 2
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理，例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason
ruby - 如何为 pbcopy 生成富文本链接 - 2
我一直在玩一个脚本，它在Chrome中获取选定的文本并在Google中查找它，提供四个最佳选择，然后粘贴相关链接。它以不同的格式粘贴，具体取决于当前在Chrome中打开的页面-DokuWiki打开的DokuWiki格式，普通网站的HTML，我想要我的WordPress所见即所得编辑器的富文本。我尝试使用pbpaste-Preferrtf来查看没有其他样式的富文本链接在粘贴板上的样子，但它仍然输出纯文本。在文本编辑中保存文件并进行试验后，我想出了以下内容text=%q|{\rtf1{\field{\*\fldinst{HYPERLINK"URL"}}{\fldrsltTEXT}}}|te
ruby - 引用具有指定索引的枚举器值 - 2
假设我有一个可枚举对象enum，现在我想获取第三个项目。我知道一种通用方法是转换成数组，然后使用索引访问，如:enum.to_a[2]但这种方式会创建一个临时数组，效率可能很低。现在我使用:enum.each_with_index{|v,i|breakvifi==2}但这非常丑陋和多余。执行此操作最有效的方法是什么？最佳答案你可以使用take剥离前三个元素，然后剥离last从take给你的数组中获取第三个元素:third=enum.take(3).last如果您根本不想生成任何数组，那么也许:#Ifenumisn'tanEnum
ruby-on-rails - 尝试打开 .gitignore 以在文本编辑器中对其进行编辑，但在 OS X Mountain Lion 上找不到文件位置 - 2
我使用“newapp_name”创建了一个新的Rails应用程序，我正在尝试编辑.gitignore文件，但在我的应用程序文件夹中找不到它。我在哪里可以找到它？我安装了Git。最佳答案 .gitignore位于项目的root中，而不是app子目录中。首先打开终端并进入您的目录。您需要使用ls-a来显示stash文件。然后使用打开.gitignore 关于ruby-on-rails-尝试打开.gitignore以在文本编辑器中对其进行编辑，但在OSXMountainLion上找不到文件位
ruby - 将 Logstash 中的时间戳时区转换为输出索引名称 - 2
在我的场景中，Logstash收到的系统日志行的“时间戳”是UTC，我们在Elasticsearch输出中使用事件“时间戳”:output{elasticsearch{embedded=>falsehost=>localhostport=>9200protocol=>httpcluster=>'elasticsearch'index=>"syslog-%{+YYYY.MM.dd}"}}我的问题是，在UTC午夜，Logstash在外时区(GMT-4=>America/Montreal)结束前将日志发送到不同的索引，并且索引在20小时(晚上8点)之后没有日志，因为“时间戳”是UTC。我们已
ruby - 如何将一段文本可逆地压缩成更少的 ASCII 字符？ - 2
我想获取任意的ASCII文本字符串，例如“Helloworld”，并将其压缩为字符数较少(尽可能少)的版本，但要采用可以解压缩的方式。压缩版本应仅由ascii字符组成。有没有一种方法可以做到这一点，尤其是在Ruby中？最佳答案如果知道只会使用ASCII字符，那就是每个字节的低7位。通过位操作，您可以将每8个字节混合成7个字节(节省12.5%)。如果您可以将其放入更小的范围(仅限64个有效字符)，则可以删除另一个字节。但是，因为您希望压缩形式也只包含ASCII字符，所以会丢失一个字节-除非您的输入可以限制为64个字符(例如，有损压
ruby-on-rails - ActiveRecord:除非另有说明，否则在保存之前使所有文本字段都调用 strip - 2
多年来，我在各种网站上遇到过各种问题，用户在字符串和文本字段的开头/结尾放置空格。有时这些会导致格式/布局问题，有时会导致搜索问题(即搜索顺序看起来不对，但实际上并非如此)，有时它们实际上会使应用程序崩溃。我认为这会很有用，而不是像我过去所做的那样放入一堆before_save回调，向ActiveRecord添加一些功能以在保存之前自动调用任何字符串/文本字段上的.strip，除非我告诉它不是，例如do_not_strip:field_x,:field_y或类定义顶部的类似内容。在我去弄清楚如何做到这一点之前，有没有人看到更好的解决方案？明确一点，我已经知道我可以做到这一点:befor

php - 文本的索引词

有关php - 文本的索引词的更多相关文章

随机推荐