Ibid

Merge lp:~stefanor/ibid/feedcache-330880 into lp:~ibid-core/ibid/old-trunk-pack-0.92

feedcache-330880
Merge into old-trunk-pack-0.92

Proposed by Stefano Rivera on 2009-03-07

Status:

Merged

Approved by:

Michael Gorven on 2009-03-10

Approved revision:

566

Merged at revision:

567

Proposed branch:

lp:~stefanor/ibid/feedcache-330880

Merge into:

lp:~ibid-core/ibid/old-trunk-pack-0.92

Diff against target:

None lines

To merge this branch:

bzr merge lp:~stefanor/ibid/feedcache-330880

Related bugs:

Bug #330880: Feeds should be cached	Medium	Fix Released
Bug #336413: Feeds should support autodiscovery	Low	Fix Released

Link a bug report

Reviewer	Date Requested	Status
Michael Gorven		Approve on 2009-03-10
Jonathan Hitchcock	2009-03-07	Approve on 2009-03-08
Review via email: mp+4271@code.launchpad.net

Revision history for this message

Stefano Rivera (stefanor) wrote on 2009-03-07:

My squid started biting me. We may come across similar content-encoding issues elsewhere, too.

Revision history for this message

Jonathan Hitchcock (vhata) on 2009-03-08:

review: Approve

Revision history for this message

Michael Gorven (mgorven) wrote on 2009-03-09:

Looks fine. Needs to wait for lp:~stefanor/ibid/exchange-336443 though.

lp:~stefanor/ibid/feedcache-330880 updated on 2009-03-10

564. By Stefano Rivera on 2009-03-09: Found a bug in compression header handling
565. By Stefano Rivera on 2009-03-10: Merge from trunk
566. By Stefano Rivera on 2009-03-10: Typo

Revision history for this message

Michael Gorven (mgorven) on 2009-03-10:

review: Approve

Preview Diff

[H/L] Next/Prev Comment, [J/K] Next/Prev File, [N/P] Next/Prev Hunk

Subscribers

People subscribed via source and target branches

to all changes:

Ibid Dev Team

Jonathan Hitchcock

Michael Gorven

Pierre Nel

Stefano Rivera

 === modified file 'ibid/plugins/feeds.py'
 --- ibid/plugins/feeds.py	2009-03-01 23:01:30 +0000
 +++ ibid/plugins/feeds.py	2009-03-07 18:41:10 +0000
@@ -1,6 +1,9 @@
  import re
  from datetime import datetime
  import logging
++from urllib2 import urlopen, URLError
++from urlparse import urljoin
++from html5lib import HTMLParser, treebuilders
  from sqlalchemy import Column, Integer, Unicode, DateTime, UnicodeText, ForeignKey, Table
  from sqlalchemy.sql import func
@@ -10,6 +13,7 @@
  import ibid
  from ibid.plugins import Processor, match, authorise
  from ibid.models import Base
++from ibid.utils import cacheable_download, get_soup
  help = {'feeds': u'Displays articles from RSS and Atom feeds'}
@@ -32,15 +36,11 @@
          self.url = url
          self.identity_id = identity_id
          self.time = datetime.now()
--
--    def is_valid(self):
          self.update()
--        if self.feed['version']:
--            return True
--        return False
      def update(self):
--        self.feed = feedparser.parse(self.url)
++        feedfile = cacheable_download(self.url, "feeds/%s-%i.xml" % (re.sub(r'\W+', '_', self.name), self.identity_id))
++        self.feed = feedparser.parse(feedfile)
          self.entries = self.feed['entries']
  class Manage(Processor):
@@ -59,18 +59,31 @@
          if feed:
              event.addresponse(u"I already have the %s feed" % name)
--        else:
--            feed = Feed(unicode(name), unicode(url), event.identity)
--
--        if feed.is_valid():
--            session.save(feed)
--            session.flush()
--            event.addresponse(True)
--            log.info(u"Added feed '%s' by %s/%s (%s): %s (Found %s entries)", name, event.account, event.identity, event.sender['connection'], url, len(feed.entries))
--        else:
++            return
++
++        valid = bool(feedparser.parse(url)["version"])
++
++        if not valid:
++            soup = get_soup(url)
++            for alternate in soup.findAll('link', {'rel': 'alternate',
++                    'type': re.compile(r'^application/(atom|rss)\+xml$'),
++                    'href': re.compile(r'.+')}):
++                newurl = urljoin(url, alternate["href"])
++                valid = bool(feedparser.parse(newurl)["version"])
++
++                if valid:
++                    url = newurl
++                    break
++
++        if not valid:
              event.addresponse(u"Sorry, I could not add the %s feed. %s is not a valid feed" % (name,url))
++            return
--        session.close()
++        feed = Feed(unicode(name), unicode(url), event.identity)
++        session.save(feed)
++        session.flush()
++        event.addresponse(True)
++        log.info(u"Added feed '%s' by %s/%s (%s): %s (Found %s entries)", name, event.account, event.identity, event.sender['connection'], url, len(feed.entries))
      @match(r'^(?:list\s+)?feeds$')
      def list(self, event):
 === modified file 'ibid/utils.py'
 --- ibid/utils.py	2009-03-05 16:33:12 +0000
 +++ ibid/utils.py	2009-03-07 18:41:10 +0000
@@ -1,10 +1,16 @@
++import cgi
++from gzip import GzipFile
  from htmlentitydefs import name2codepoint
  import os
  import os.path
  from pkg_resources import resource_exists, resource_string
  import re
++from StringIO import StringIO
  import time
  import urllib2
++import zlib
++
++from html5lib import HTMLParser, treebuilders
  import ibid
@@ -80,10 +86,21 @@
      # Download into a temporary file, in case something goes wrong
      downloadfile = os.path.join(plugindir, ".download." + os.path.basename(cachefile))
      outfile = file(downloadfile, "wb")
--    buf = "x"
--    while len(buf) > 0:
--        buf = connection.read(1024)
--        outfile.write(buf)
++    data = connection.read()
++
++    compression = connection.headers.get('content-encoding')
++    if compression:
++        if compression.lower() == "deflate":
++            try:
++                data = zlib.decompress(data)
++            except zlib.error:
++                data = zlib.decompress(data, -zlib.MAX_WBITS)
++        elif compression.lower() == "gzip":
++            compressedstream = StringIO(data)
++            gzipper = GzipFile(fileobj=compressedstream)
++            data = gzipper.read()
++
++    outfile.write(data)
      outfile.close()
@@ -112,4 +129,34 @@
  def ibid_version():
      return resource_exists(__name__, '.version') and resource_string(__name__, '.version').strip() or None
++def get_soup(url, data=None, headers={}):
++    "Request a URL and create a BeautifulSoup parse tree from it"
++
++    req = urllib2.Request(url, data, headers)
++    f = urllib2.urlopen(req)
++    data = f.read()
++    f.close()
++
++    encoding = None
++    contentType = f.headers.get('content-type')
++    if contentType:
++        (mediaType, params) = cgi.parse_header(contentType)
++        encoding = params.get('charset')
++
++    compression = f.headers.get('content-encoding')
++    if compression.lower() == "deflate":
++        try:
++            data = zlib.decompress(data)
++        except zlib.error:
++            data = zlib.decompress(data, -zlib.MAX_WBITS)
++    elif compression.lower() == "gzip":
++        compressedstream = StringIO(data)
++        gzipper = GzipFile(fileobj=compressedstream)
++        data = gzipper.read()
++
++    treebuilder = treebuilders.getTreeBuilder("beautifulsoup")
++    parser = HTMLParser(tree=treebuilder)
++
++    return parser.parse(data, encoding=encoding)
++
  # vi: set et sta sw=4 ts=4:

Ibid

Merge lp:~stefanor/ibid/feedcache-330880 into lp:~ibid-core/ibid/old-trunk-pack-0.92

Commit message

Description of the change

Preview Diff

Subscribers