ensure final output from close() is encoded!

add config option to 'use_lxml_parser' if available, if not, will default to regular parser testing on travis with lxml (not adding to dep yet)
2025-03-15 00:03:28 +01:00 · 2014-03-17 13:17:02 -07:00 · 2014-03-17 13:17:02 -07:00 · f35e82a4d5
commit f35e82a4d5
parent 1404177c6f
8 changed files with 36 additions and 41 deletions
--- a/.travis.yml
+++ b/.travis.yml
@ -6,6 +6,7 @@ python:
 # command to install dependencies
 install:
  - "pip install 'argparse>=1.2.1' --allow-all-external"
  - pip install lxml
  - python setup.py -q install
  - pip install coverage pytest-cov coveralls --use-mirrors
 # command to run tests
--- a/config.yaml
+++ b/config.yaml
@ -103,3 +103,7 @@ enable_cdx_api: true
 # Memento support, enable
 enable_memento: true
 # Use lxml parser, if available
 use_lxml_parser: true
--- a/pywb/core/pywb_init.py
+++ b/pywb/core/pywb_init.py
@ -7,6 +7,7 @@ from pywb.warc.recordloader import ArcWarcRecordLoader
 from pywb.warc.resolvingloader import ResolvingLoader
 from pywb.rewrite.rewrite_content import RewriteContent
 from pywb.rewrite.rewriterules import use_lxml_parser
 from pywb.cdx.cdxserver import create_cdx_server
@ -41,6 +42,8 @@ DEFAULTS = {
    'domain_specific_rules': 'pywb/rules.yaml',
    'enable_memento': True,
    'use_lxml_parser': True,
 }
 #=================================================================
@ -137,6 +140,8 @@ def create_wb_router(passed_config = {}):
    else:
        request_class = WbRequest
    if config.get('use_lxml_parser', False):
        use_lxml_parser()
    for name, value in collections.iteritems():
        if isinstance(value, str):
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@ -11,6 +11,7 @@ from regex_rewriters import JSRewriter, CSSRewriter
 import cgi
 #=================================================================
 class HTMLRewriterMixin(object):
    """
@ -198,7 +199,6 @@ class HTMLRewriterMixin(object):
        return True
    def _write_attr(self, name, value, escape=False):
        # parser doesn't differentiate between 'attr=""' and just 'attr'
        # 'attr=""' is more common, so use that form
@ -283,7 +283,6 @@ class HTMLRewriter(HTMLRewriterMixin, HTMLParser):
        elif tag != 'head' or not self._rewrite_head(True):
            self.out.write('/>')
    def handle_endtag(self, tag):
        if (tag == self._wb_parse_context):
            self._wb_parse_context = None
--- a/pywb/rewrite/lxml_parser.py
+++ b/pywb/rewrite/lxml_parser.py
@ -1,7 +1,6 @@
 #!/usr/bin/env python
 # -*- coding: utf-8 -*-
 #import lxml.html
 import lxml.etree
 import cgi
 import re
@ -11,6 +10,7 @@ from url_rewriter import UrlRewriter
 from html_rewriter import HTMLRewriterMixin
 #=================================================================
 class LXMLHTMLRewriter(HTMLRewriterMixin):
    ur"""
    >>> parse('<HTML><A Href="page.html">Text</a></hTmL>')
@ -128,9 +128,6 @@ class LXMLHTMLRewriter(HTMLRewriterMixin):
                                            recover=True,
                                            )
        self.is_closing = False
    def feed(self, string):
        string = self.END_HTML.sub(u'', string)
        #string = string.replace(u'</html>', u'')
@ -150,6 +147,7 @@ class LXMLHTMLRewriter(HTMLRewriterMixin):
        return result
 #=================================================================
 class RewriterTarget(object):
    def __init__(self, rewriter):
        self.rewriter = rewriter
@ -169,11 +167,7 @@ class RewriterTarget(object):
        self.rewriter.out.write(u'>')
    def end(self, tag):
        #if tag == 'html' and not self.rewriter.is_closing:
        #    raise lxml.etree.LxmlError('test')
        if (tag == self.rewriter._wb_parse_context):
            self.rewriter._wb_parse_context = None
@ -202,21 +196,7 @@ def parse(data, head_insert=None):
    parser = LXMLHTMLRewriter(urlrewriter, head_insert=head_insert)
    data = data.decode('utf-8')
    print parser.rewrite(data) + parser.close()
    #return parser.rewrite(data) + parser.close()
 if __name__ == "__main__":
-
+    import doctest
-    import sys
+    doctest.testmod()
    if len(sys.argv) == 1:
        import doctest
        doctest.testmod()
    else:
        parser = LXMLHTMLRewriter(urlrewriter)
        x = open(sys.argv[1])
        b = x.read(81920)
        while b:
            result = parser.rewrite(b.decode('utf-8'))
            print result.encode('utf-8')
            b = x.read(81920)
        print parser.close()
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@ -123,7 +123,11 @@ class RewriteContent:
            return buff
        def do_finish():
-            return rewriter.close()
+            result = rewriter.close()
            if encoding:
                result = result.encode(encoding)
            return result
        return self.stream_to_gen(stream,
                                  rewrite_func=do_rewrite,
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@ -66,9 +66,9 @@ def get_rewritten(url, urlrewriter, urlkey=None, head_insert_func=None):
    status_headers, gen = result
-    #buff = u''.join(gen)
+    buff = ''.join(gen)
-    return (status_headers, gen)
+    return (status_headers, buff)
 #=================================================================
--- a/pywb/rewrite/rewriterules.py
+++ b/pywb/rewrite/rewriterules.py
@ -3,22 +3,24 @@ from pywb.utils.dsrules import BaseRule
 from regex_rewriters import RegexRewriter, CSSRewriter, XMLRewriter
 from regex_rewriters import JSLinkAndLocationRewriter, JSLinkOnlyRewriter
 HTML = None
 try:
    from lxml_parser import LXMLHTMLRewriter
    HTML = LXMLHTMLRewriter
    pass
 except ImportError:
    pass
 if not HTML:
    from html_rewriter import HTMLRewriter
    HTML = HTMLRewriter
 from header_rewriter import HeaderRewriter
 from html_rewriter import HTMLRewriter
 import itertools
 HTML = HTMLRewriter
 #=================================================================
 def use_lxml_parser():
    try:
        import logging
        from lxml_parser import LXMLHTMLRewriter
        HTML = LXMLHTMLRewriter
        logging.debug('Using LXML Parser')
    except ImportError:
        logging.debug('Error Loading LXML Parser')
 #=================================================================
 class RewriteRules(BaseRule):