草庐IT

php - 如何使用正则表达式在字符串中查找所有 YouTube 视频 ID?

coder 2023-04-24 原文

我有一个文本字段,用户可以在其中编写任何内容。

例如:

Lorem Ipsum is simply dummy text. http://www.youtube.com/watch?v=DUQi_R4SgWo of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. http://www.youtube.com/watch?v=A_6gNZCkajU&feature=relmfu It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.



现在我想解析它并找到所有 YouTube 视频 URL 及其 ID。

知道它是如何工作的吗?

最佳答案

可能会遇到各种格式的 YouTube 视频 URL:

  • 最新短格式:http://youtu.be/NLqAF9hrVbY
  • iframe:http://www.youtube.com/embed/NLqAF9hrVbY
  • iframe(安全):https://www.youtube.com/embed/NLqAF9hrVbY
  • 对象参数:http://www.youtube.com/v/NLqAF9hrVbY?fs=1&hl=en_US
  • 对象嵌入:http://www.youtube.com/v/NLqAF9hrVbY?fs=1&hl=en_US
  • watch :http://www.youtube.com/watch?v=NLqAF9hrVbY
  • 用户:http://www.youtube.com/user/Scobleizer#p/u/1/1p3vcRhsYGo
  • ytscreeningroom:http://www.youtube.com/ytscreeningroom?v=NRHVzbJVx8I
  • 任何/事情/去!:http://www.youtube.com/sandalsResorts#p/c/54B8C800269D7C1B/2/PPS-8DMrAn4
  • 任何/子域/太:http://gdata.youtube.com/feeds/api/videos/NLqAF9hrVbY
  • 更多参数:http://www.youtube.com/watch?v=spDj54kf-vY&feature=g-vrec
  • 查询可能有点:http://www.youtube.com/watch?v=spDj54kf-vY&feature=youtu.be
  • nocookie 域:http://www.youtube-nocookie.com

  • 这是一个带有注释的正则表达式的 PHP 函数,它匹配这些 URL 形式中的每一个并将它们转换为链接(如果它们还不是链接):

    // Linkify youtube URLs which are not already links.
    function linkifyYouTubeURLs($text) {
        $text = preg_replace('~(?#!js YouTubeId Rev:20160125_1800)
            # Match non-linked youtube URL in the wild. (Rev:20130823)
            https?://          # Required scheme. Either http or https.
            (?:[0-9A-Z-]+\.)?  # Optional subdomain.
            (?:                # Group host alternatives.
              youtu\.be/       # Either youtu.be,
            | youtube          # or youtube.com or
              (?:-nocookie)?   # youtube-nocookie.com
              \.com            # followed by
              \S*?             # Allow anything up to VIDEO_ID,
              [^\w\s-]         # but char before ID is non-ID char.
            )                  # End host alternatives.
            ([\w-]{11})        # $1: VIDEO_ID is exactly 11 chars.
            (?=[^\w-]|$)       # Assert next char is non-ID or EOS.
            (?!                # Assert URL is not pre-linked.
              [?=&+%\w.-]*     # Allow URL (query) remainder.
              (?:              # Group pre-linked alternatives.
                [\'"][^<>]*>   # Either inside a start tag,
              | </a>           # or inside <a> element text contents.
              )                # End recognized pre-linked alts.
            )                  # End negative lookahead assertion.
            [?=&+%\w.-]*       # Consume any URL (query) remainder.
            ~ix', '<a href="http://www.youtube.com/watch?v=$1">YouTube link: $1</a>',
            $text);
        return $text;
    }
    

    ;//结束 $YouTubeId。

    这是一个具有完全相同正则表达式的 JavaScript 版本(删除了注释):

    // Linkify youtube URLs which are not already links.
    function linkifyYouTubeURLs(text) {
        var re = /https?:\/\/(?:[0-9A-Z-]+\.)?(?:youtu\.be\/|youtube(?:-nocookie)?\.com\S*?[^\w\s-])([\w-]{11})(?=[^\w-]|$)(?![?=&+%\w.-]*(?:['"][^<>]*>|<\/a>))[?=&+%\w.-]*/ig;
        return text.replace(re,
            '<a href="http://www.youtube.com/watch?v=$1">YouTube link: $1</a>');
    }
    

    备注:
  • URL 的 VIDEO_ID 部分在唯一的捕获组中捕获:$1 .
  • 如果您知道您的文本不包含任何预链接的 URL,您可以安全地删除测试此条件的否定前瞻断言(以评论开头的断言:“Assert URL is not pre-linked。”)这将加快稍微提高正则表达式。
  • 可以修改替换字符串以适应。上面提供的只是创建了一个指向通用 "http://www.youtube.com/watch?v=VIDEO_ID" 的链接。样式 URL 并将链接文本设置为:"YouTube link: VIDEO_ID" .


  • 编辑 2011-07-05:已添加 -连字符到 ID 字符类

    编辑 2011-07-17:修复了正则表达式以使用 YouTube ID 之后 URL 的任何剩余部分(例如查询)。已添加 'i'忽略大小写修饰符。将函数重命名为驼峰式命名法。改进的预链接前瞻测试。

    编辑 2011-07-27:添加了新的 YouTube 网址的“用户”和“ytscreeningroom”格式。

    编辑 2011-08-02:简化/通用以处理新的“任何/事情/去”YouTube URL。

    编辑 2011-08-25:几个修改:
  • 添加了以下 Javascript 版本:linkifyYouTubeURLs()功能。
  • 以前的版本有方案(HTTP 协议(protocol))部分可选,因此会匹配无效的 URL。使方案部分成为必需。
  • 以前的版本使用了 \b VIDEO_ID 周围的词边界 anchor 。但是,如果 VIDEO_ID 以 - 开头或结尾,这将不起作用。短跑。固定以便它处理这种情况。
  • 更改了 VIDEO_ID 表达式,使其长度必须正好为 11 个字符。
  • 如果 VIDEO_ID 后面有查询字符串,以前的版本无法排除预链接的 URL。改进了否定前瞻断言来解决这个问题。
  • 已添加 +%到字符类匹配查询字符串。
  • 更改 PHP 版本正则表达式分隔符:%至:~ .
  • 添加了“注释”部分,其中包含一些方便的注释。

  • 编辑 2011-10-12: YouTube URL 主机部分现在可以有任何子域(不仅仅是 www. )。

    编辑 2012-05-01:消费 URL 部分现在可以允许使用“-”。

    编辑 2013-08-23:添加了@Mei 提供的附加格式。 (查询部分可能有一个 . 点。

    编辑 2013-11-30:添加了@CRONUS 提供的附加格式:youtube-nocookie.com .

    编辑 2016-01-25:修复了正则表达式以处理 CRONUS 提供的错误情况。

    关于php - 如何使用正则表达式在字符串中查找所有 YouTube 视频 ID?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5830387/

    有关php - 如何使用正则表达式在字符串中查找所有 YouTube 视频 ID?的更多相关文章

    1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

      我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

    2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    3. Ruby 解析字符串 - 2

      我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

    4. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    5. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

      类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

    6. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

      很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

    7. ruby - 在 Ruby 中使用匿名模块 - 2

      假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

    8. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

      我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

    9. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

      我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

    10. ruby-on-rails - unicode 字符串的长度 - 2

      在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)

    随机推荐