草庐IT

PHP:以 OOP 方式搜索 CSV 文件

coder 2024-04-09 原文

我需要编写一个脚本来搜索 CSV 文件,并对其执行特定的搜索功能;

  1. 查找列中的重复项
  2. 在另一列中查找与禁止条目列表的匹配项
  3. 在指定列上通过正则表达式匹配查找条目

现在,我完全可以按程序编写代码,但由于我现在正在转向面向对象编程,所以我想改用类和对象实例。

但是,在 OOP 中思考对我来说还不是很自然,所以我不完全确定该走哪条路。我不是在寻找特定的代码,而是在寻找有关如何设计脚本的建议。

我目前的想法是这样的;

  1. 创建一个文件类。这将处理数据的导入/导出
  2. 创建一个搜索类。文件的子类。这将包含各种搜索方法

它如何在 index.php 中运行:

  1. 从 index.php 文件对象中的 csv 中获取一个数组
  2. 创建循环以遍历数组的值
  3. 从搜索对象调用循环中的方法并将它们回显

我看到这种方法的问题是这样的;

  • 我想指向数组中的不同元素以查看特定的“列”。我可以将我的循环放在一个函数中并将其作为参数传递,但我觉得这种做法违背了 OOP 的要点
  • 我的搜索方法将以不同的方式起作用。使用嵌套循环搜索重复条目非常简单,但我不需要嵌套循环来执行简单的单词或正则表达式搜索。

我应该这样走吗?

  1. 创建一个文件类。这将处理数据的导入/导出
  2. 创建一个循环类文件类的子类。这将包含处理遍历数组的方法
  3. 创建一个搜索类。循环的子类。这将包含各种搜索方法

我的主要问题是似乎我可能需要多个搜索对象并在我的循环类中迭代它。

任何帮助将不胜感激。我对 OOP 很陌生,虽然我了解各个部分,但我还无法看到更大的图景。我可能使我正在尝试做的事情过于复杂,或者可能有一种我还看不到的更简单的方法。

最佳答案

PHP 已经提供了一种方法来 read a CSV file in an OO manner with SplFileObject :

$file = new SplFileObject("data.csv");

// tell object that it is reading a CSV file
$file->setFlags(SplFileObject::READ_CSV);
$file->setCsvControl(',', '"', '\\');

// iterate over the data
foreach ($file as $row) {
    list ($fruit, $quantity) = $row;
    // Do something with values
}

由于 SplFileObject 流过 CSV 数据,因此内存消耗非常低,您可以有效地处理大型 CSV 文件,但由于它是文件 i/o,所以它不是最快的。但是,SplFileObject 实现了 Iterator 接口(interface),因此您可以将该 $file 实例包装到其他迭代器中以修改迭代。例如,要限制文件 i/o,您可以将其包装到 CachingIterator 中:

$cachedFile = new CachingIterator($file, CachingIterator::FULL_CACHE);

要填充缓存,您需要遍历 $cachedFile。这将填充缓存

foreach ($cachedFile as $row) {

然后要遍历缓存,您需要这样做

foreach ($cachedFile->getCache() as $row) {

权衡显然是增加了内存。

现在,要执行您的查询,您可以将 CachingIterator 或 SplFileObject 包装到 FilterIterator 中,这将在迭代 csv 数据时限制输出

class BannedEntriesFilter extends FilterIterator
{
    private $bannedEntries = array();

    public function setBannedEntries(array $bannedEntries)
    {
        $this->bannedEntries = $bannedEntries;
    }

    public function accept()
    {
        foreach ($this->current() as $key => $val) {
            return !$this->isBannedEntryInColumn($val, $key);
        }
    }

    public function $isBannedEntryInColumn($entry, $column)
    {
        return isset($this->bannedEntries[$column])
            && in_array($this->bannedEntries[$column], $entry);
    }
}

FilterIterator 将忽略内部 Iterator 中不满足 FilterIterator 的 accept 方法中的测试的所有条目。上面,我们检查 csv 文件中的当前行是否与禁止条目数组匹配,如果匹配,则数据不包含在迭代中。你可以这样使用它:

$filteredCachedFile = new BannedEntriesFilter(
    new ArrayIterator($cachedFile->getCache())
)

由于缓存的结果始终是一个数组,因此我们需要将该数组包装到一个 ArrayIterator 中,然后才能将其包装到我们的 FilterIterator 中。请注意,要使用缓存,您还需要至少迭代一次 CachingIterator。我们只是假设您已经在上面做了。下一步是配置禁止条目

$filteredCachedFile->setBannedEntries(
    array(
        // banned entries for column 0
        array('foo', 'bar'),
        // banned entries for column 1
        array( …
    )
);

我想这很简单。您有一个多维数组,CSV 数据中的每一列都有一个条目,其中包含被禁止的条目。然后您只需遍历该实例,它只会为您提供没有禁止条目的行

foreach ($filteredCachedFile as $row) {
    // do something with filtered rows
}

或者,如果您只想将结果放入数组中:

$results = iterator_to_array($filteredCachedFile);

您可以堆叠多个 FilterIterator 以进一步限制结果。如果您不想为每个过滤都编写一个类,请查看 CallbackFilterIterator,它允许在运行时传递接受逻辑:

$filteredCachedFile = new CallbackFilterIterator(
    new ArrayIterator($cachedFile->getCache()),
    function(array $row) {
        static $bannedEntries = array(
            array('foo', 'bar'),
            …
        );
        foreach ($row as $key => $val) {
            // logic from above returning boolean if match is found
        }
    }
);

关于PHP:以 OOP 方式搜索 CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13249018/

有关PHP:以 OOP 方式搜索 CSV 文件的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  3. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  4. ruby-on-rails - Rails 3 中的多个路由文件 - 2

    Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

  5. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  6. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  7. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

  8. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  9. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  10. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

随机推荐