From d6006acdc3dfab128ff9798a00c1348ab7e883c1 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 6 Apr 2014 09:47:34 -0700
Subject: [PATCH 01/55] rewrite: when using lxml parser, just pass raw stream
 to lxml without decoding. lxml parser expects to have raw bytes and will
 determine encoding on its own. then serve back as utf-8 if no encoding
 specified. should address #36

---
 pywb/rewrite/lxml_html_rewriter.py           |  3 +-
 pywb/rewrite/rewrite_content.py              | 39 ++++++++++++--------
 pywb/rewrite/rewriterules.py                 | 11 +++++-
 pywb/rewrite/test/test_lxml_html_rewriter.py |  9 +++++
 4 files changed, 43 insertions(+), 19 deletions(-)

diff --git a/pywb/rewrite/lxml_html_rewriter.py b/pywb/rewrite/lxml_html_rewriter.py
index 2c8a8b8a..8aac2f54 100644
--- a/pywb/rewrite/lxml_html_rewriter.py
+++ b/pywb/rewrite/lxml_html_rewriter.py
@@ -79,7 +79,8 @@ class RewriterTarget(object):
     def data(self, data):
         if not self.rewriter._wb_parse_context:
             data = cgi.escape(data, quote=True)
-
+            if isinstance(data, unicode):
+                data = data.replace(u'\xa0', '&nbsp;')
         self.rewriter.parse_data(data)
 
     def comment(self, data):
diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index 0acdf5a5..720bf9f1 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -6,7 +6,7 @@ from io import BytesIO
 
 from header_rewriter import RewrittenStatusAndHeaders
 
-from rewriterules import RewriteRules
+from rewriterules import RewriteRules, is_lxml
 
 from pywb.utils.dsrules import RuleSet
 from pywb.utils.statusandheaders import StatusAndHeaders
@@ -73,21 +73,25 @@ class RewriteContent:
         # ====================================================================
         # special case -- need to ungzip the body
 
+        text_type = rewritten_headers.text_type
+        stream_raw = False
+        encoding = None
+        first_buff = None
+
         if (rewritten_headers.
              contains_removed_header('content-encoding', 'gzip')):
             stream = DecompressingBufferedReader(stream, decomp_type='gzip')
 
         if rewritten_headers.charset:
             encoding = rewritten_headers.charset
-            first_buff = None
+        elif is_lxml() and text_type == 'html':
+            stream_raw = True
         else:
             (encoding, first_buff) = self._detect_charset(stream)
 
-            # if chardet thinks its ascii, use utf-8
-            if encoding == 'ascii':
-                encoding = 'utf-8'
-
-        text_type = rewritten_headers.text_type
+        # if encoding not set or chardet thinks its ascii, use utf-8
+        if not encoding or encoding == 'ascii':
+            encoding = 'utf-8'
 
         rule = self.ruleset.get_first_match(urlkey)
 
@@ -108,34 +112,33 @@ class RewriteContent:
                                       js_rewriter_class=rule.rewriters['js'],
                                       css_rewriter_class=rule.rewriters['css'],
                                       head_insert=head_insert_str)
+
         else:
         # apply one of (js, css, xml) rewriters
             rewriter = rewriter_class(urlrewriter)
 
         # Create rewriting generator
-        gen = self._rewriting_stream_gen(rewriter, encoding,
+        gen = self._rewriting_stream_gen(rewriter, encoding, stream_raw,
                                          stream, first_buff)
 
         return (status_headers, gen, True)
 
     # Create rewrite stream,  may even be chunked by front-end
-    def _rewriting_stream_gen(self, rewriter, encoding,
+    def _rewriting_stream_gen(self, rewriter, encoding, stream_raw,
                               stream, first_buff=None):
         def do_rewrite(buff):
-            if encoding:
+            if not stream_raw:
                 buff = self._decode_buff(buff, stream, encoding)
 
             buff = rewriter.rewrite(buff)
 
-            if encoding:
-                buff = buff.encode(encoding)
+            buff = buff.encode(encoding)
 
             return buff
 
         def do_finish():
             result = rewriter.close()
-            if encoding:
-                result = result.encode(encoding)
+            result = result.encode(encoding)
 
             return result
 
@@ -188,12 +191,16 @@ class RewriteContent:
     def stream_to_gen(stream, rewrite_func=None,
                       final_read_func=None, first_buff=None):
         try:
-            buff = first_buff if first_buff else stream.read()
+            if first_buff:
+                buff = first_buff
+            else:
+                buff = stream.read() + stream.readline()
+
             while buff:
                 if rewrite_func:
                     buff = rewrite_func(buff)
                 yield buff
-                buff = stream.read()
+                buff = stream.read() + stream.readline()
 
             # For adding a tail/handling final buffer
             if final_read_func:
diff --git a/pywb/rewrite/rewriterules.py b/pywb/rewrite/rewriterules.py
index 03a23653..a7737248 100644
--- a/pywb/rewrite/rewriterules.py
+++ b/pywb/rewrite/rewriterules.py
@@ -9,6 +9,7 @@ from html_rewriter import HTMLRewriter
 import itertools
 
 HTML = HTMLRewriter
+_is_lxml = False
 
 
 #=================================================================
@@ -18,13 +19,19 @@ def use_lxml_parser():
 
     if LXML_SUPPORTED:
         global HTML
+        global _is_lxml
         HTML = LXMLHTMLRewriter
         logging.debug('Using LXML Parser')
-        return True
+        _is_lxml = True
     else:  # pragma: no cover
         logging.debug('LXML Parser not available')
-        return False
+        _is_lxml = False
 
+    return _is_lxml
+
+
+def is_lxml():
+    return _is_lxml
 
 #=================================================================
 class RewriteRules(BaseRule):
diff --git a/pywb/rewrite/test/test_lxml_html_rewriter.py b/pywb/rewrite/test/test_lxml_html_rewriter.py
index 125977e7..038de4a8 100644
--- a/pywb/rewrite/test/test_lxml_html_rewriter.py
+++ b/pywb/rewrite/test/test_lxml_html_rewriter.py
@@ -119,6 +119,15 @@ ur"""
 >>> p = LXMLHTMLRewriter(urlrewriter)
 >>> p.close()
 ''
+
+# test &nbsp;
+>>> parse('&nbsp;')
+<html><body><p>&nbsp;</p></body></html>
+
+# test multiple rewrites: &nbsp; extra >, split comment
+>>> p = LXMLHTMLRewriter(urlrewriter)
+>>> p.rewrite('<div>&nbsp; &nbsp; > <!-- a') + p.rewrite('b --></div>') + p.close()
+u'<html><body><div>&nbsp; &nbsp; &gt; <!-- ab --></div></body></html>'
 """
 
 from pywb.rewrite.url_rewriter import UrlRewriter

From d8c20a59cf2a2381315f1f26da62b7258d9e5060 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 6 Apr 2014 11:46:43 -0700
Subject: [PATCH 02/55] update to version 0.3.1

---
 CHANGES.rst | 8 +++++++-
 README.rst  | 2 +-
 setup.py    | 3 ++-
 3 files changed, 10 insertions(+), 3 deletions(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 547a8f52..129f2307 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -1,4 +1,10 @@
-pywb 0.2.2 changelist
+pywb 0.3.1 changelist
+~~~~~~~~~~~~~~~~~~~~~
+
+* Improve lxml rewriting, letting lxml handle decoding from bytestream (to address #36)
+
+
+pywb 0.3.0 changelist
 ~~~~~~~~~~~~~~~~~~~~~
 
 * Generate cdx indexs via command-line `cdx-indexer` script. Optionally sorting, and output to either a single combined file or a file per-directory.
diff --git a/README.rst b/README.rst
index 86c18e06..f9fc0fc2 100644
--- a/README.rst
+++ b/README.rst
@@ -1,4 +1,4 @@
-PyWb 0.2.2
+PyWb 0.3.1
 =============
 
 .. image:: https://travis-ci.org/ikreymer/pywb.png?branch=develop
diff --git a/setup.py b/setup.py
index 0a578f54..cb5717f1 100755
--- a/setup.py
+++ b/setup.py
@@ -34,7 +34,7 @@ class PyTest(TestCommand):
 
 setup(
     name='pywb',
-    version='0.2.2',
+    version='0.3.1',
     url='https://github.com/ikreymer/pywb',
     author='Ilya Kreymer',
     author_email='ikreymer@gmail.com',
@@ -84,6 +84,7 @@ setup(
         [console_scripts]
         wayback = pywb.apps.wayback:main
         cdx-server = pywb.apps.cdx_server:main
+        rewrite-live = pywb.apps.rewrite_live:main
         cdx-indexer = pywb.warc.archiveindexer:main
         """,
     zip_safe=False,

From 64eef7063dfa904f4fee090e65307e3f1ff53a29 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:08:39 -0700
Subject: [PATCH 03/55] record reading: better handling of empty arc (or warc)
 records for indexing, index empty/invalid length as '-' status code for
 reading, serve as 204 no content. ensure that StatusAndHeaders has a valid
 statusline when serving if http content-length is valid,, limit stream to
 that content-length as well as record content-length (whichever is smaller)
 replace content-length when buffering

---
 pywb/utils/loaders.py                    | 12 +++++-
 pywb/utils/statusandheaders.py           | 54 +++++++++++++++++++++---
 pywb/utils/test/test_statusandheaders.py | 17 ++++++++
 pywb/warc/archiveindexer.py              | 12 +++++-
 pywb/warc/recordloader.py                | 12 ++++--
 pywb/warc/resolvingloader.py             |  3 ++
 pywb/warc/test/test_indexing.py          |  7 +--
 pywb/webapp/replay_views.py              | 14 +++---
 8 files changed, 108 insertions(+), 23 deletions(-)

diff --git a/pywb/utils/loaders.py b/pywb/utils/loaders.py
index ccbe960e..f86e4072 100644
--- a/pywb/utils/loaders.py
+++ b/pywb/utils/loaders.py
@@ -93,7 +93,10 @@ class BlockLoader(object):
         headers['Range'] = range_header
 
         if self.cookie_maker:
-            headers['Cookie'] = self.cookie_maker.make()
+            if isinstance(self.cookie_maker, basestring):
+                headers['Cookie'] = self.cookie_maker
+            else:
+                headers['Cookie'] = self.cookie_maker.make()
 
         request = urllib2.Request(url, headers=headers)
         return urllib2.urlopen(request)
@@ -184,7 +187,12 @@ class LimitReader(object):
         try:
             content_length = int(content_length)
             if content_length >= 0:
-                stream = LimitReader(stream, content_length)
+                # optimize: if already a LimitStream, set limit to
+                # the smaller of the two limits
+                if isinstance(stream, LimitReader):
+                    stream.limit = min(stream.limit, content_length)
+                else:
+                    stream = LimitReader(stream, content_length)
 
         except (ValueError, TypeError):
             pass
diff --git a/pywb/utils/statusandheaders.py b/pywb/utils/statusandheaders.py
index 24dcf784..85805cb2 100644
--- a/pywb/utils/statusandheaders.py
+++ b/pywb/utils/statusandheaders.py
@@ -29,6 +29,21 @@ class StatusAndHeaders(object):
             if value[0].lower() == name_lower:
                 return value[1]
 
+    def replace_header(self, name, value):
+        """
+        replace header with new value or add new header
+        return old header value, if any
+        """
+        name_lower = name.lower()
+        for index in xrange(len(self.headers) - 1, -1, -1):
+            curr_name, curr_value = self.headers[index]
+            if curr_name.lower() == name_lower:
+                self.headers[index] = (curr_name, value)
+                return curr_value
+
+        self.headers.append((name, value))
+        return None
+
     def remove_header(self, name):
         """
         remove header (case-insensitive)
@@ -42,6 +57,20 @@ class StatusAndHeaders(object):
 
         return False
 
+    def validate_statusline(self, valid_statusline):
+        """
+        Check that the statusline is valid, eg. starts with a numeric
+        code. If not, replace with passed in valid_statusline
+        """
+        code = self.statusline.split(' ', 1)[0]
+        try:
+            code = int(code)
+            assert(code > 0)
+            return True
+        except ValueError, AssertionError:
+            self.statusline = valid_statusline
+            return False
+
     def __repr__(self):
         headers_str = pprint.pformat(self.headers, indent=2)
         return "StatusAndHeaders(protocol = '{0}', statusline = '{1}', \
@@ -81,9 +110,16 @@ class StatusAndHeadersParser(object):
 
         statusline, total_read = _strip_count(full_statusline, 0)
 
+        headers = []
+
         # at end of stream
         if total_read == 0:
             raise EOFError()
+        elif not statusline:
+            return StatusAndHeaders(statusline=statusline,
+                                    headers=headers,
+                                    protocol='',
+                                    total_len=total_read)
 
         protocol_status = self.split_prefix(statusline, self.statuslist)
 
@@ -92,13 +128,15 @@ class StatusAndHeadersParser(object):
             msg = msg.format(self.statuslist, statusline)
             raise StatusAndHeadersParserException(msg, full_statusline)
 
-        headers = []
-
         line, total_read = _strip_count(stream.readline(), total_read)
         while line:
-            name, value = line.split(':', 1)
-            name = name.rstrip(' \t')
-            value = value.lstrip()
+            result = line.split(':', 1)
+            if len(result) == 2:
+                name = result[0].rstrip(' \t')
+                value = result[1].lstrip()
+            else:
+                name = result[0]
+                value = None
 
             next_line, total_read = _strip_count(stream.readline(),
                                                  total_read)
@@ -109,8 +147,10 @@ class StatusAndHeadersParser(object):
                 next_line, total_read = _strip_count(stream.readline(),
                                                      total_read)
 
-            header = (name, value)
-            headers.append(header)
+            if value is not None:
+                header = (name, value)
+                headers.append(header)
+
             line = next_line
 
         return StatusAndHeaders(statusline=protocol_status[1].strip(),
diff --git a/pywb/utils/test/test_statusandheaders.py b/pywb/utils/test/test_statusandheaders.py
index ea835e32..061532a3 100644
--- a/pywb/utils/test/test_statusandheaders.py
+++ b/pywb/utils/test/test_statusandheaders.py
@@ -13,6 +13,14 @@ StatusAndHeadersParserException: Expected Status Line starting with ['Other'] -
 >>> st1 == StatusAndHeadersParser(['HTTP/1.0']).parse(BytesIO(status_headers_1))
 True
 
+# replace header, print new headers
+>>> st1.replace_header('some', 'Another-Value'); st1
+'Value'
+StatusAndHeaders(protocol = 'HTTP/1.0', statusline = '200 OK', headers = [ ('Content-Type', 'ABC'),
+  ('Some', 'Another-Value'),
+  ('Multi-Line', 'Value1    Also This')])
+
+
 # remove header
 >>> st1.remove_header('some')
 True
@@ -20,6 +28,10 @@ True
 # already removed
 >>> st1.remove_header('Some')
 False
+
+# empty
+>>> st2 = StatusAndHeadersParser(['HTTP/1.0']).parse(BytesIO(status_headers_2)); x = st2.validate_statusline('204 No Content'); st2
+StatusAndHeaders(protocol = '', statusline = '204 No Content', headers = [])
 """
 
 
@@ -37,6 +49,11 @@ Multi-Line: Value1\r\n\
 Body"
 
 
+status_headers_2 = """
+
+"""
+
+
 if __name__ == "__main__":
     import doctest
     doctest.testmod()
diff --git a/pywb/warc/archiveindexer.py b/pywb/warc/archiveindexer.py
index 6ee3a10c..2247ced4 100644
--- a/pywb/warc/archiveindexer.py
+++ b/pywb/warc/archiveindexer.py
@@ -164,7 +164,7 @@ class ArchiveIndexer(object):
 
         digest = record.rec_headers.get_header('WARC-Payload-Digest')
 
-        status = record.status_headers.statusline.split(' ')[0]
+        status = self._extract_status(record.status_headers)
 
         if record.rec_type == 'revisit':
             mime = 'warc/revisit'
@@ -205,7 +205,9 @@ class ArchiveIndexer(object):
         timestamp = record.rec_headers.get_header('archive-date')
         if len(timestamp) > 14:
             timestamp = timestamp[:14]
-        status = record.status_headers.statusline.split(' ')[0]
+
+        status = self._extract_status(record.status_headers)
+
         mime = record.rec_headers.get_header('content-type')
         mime = self._extract_mime(mime)
 
@@ -228,6 +230,12 @@ class ArchiveIndexer(object):
             mime = 'unk'
         return mime
 
+    def _extract_status(self, status_headers):
+        status = status_headers.statusline.split(' ')[0]
+        if not status:
+            status = '-'
+        return status
+
     def read_rest(self, reader, digester=None):
         """ Read remainder of the stream
         If a digester is included, update it
diff --git a/pywb/warc/recordloader.py b/pywb/warc/recordloader.py
index 96e149e3..4c71dee3 100644
--- a/pywb/warc/recordloader.py
+++ b/pywb/warc/recordloader.py
@@ -97,18 +97,24 @@ class ArcWarcRecordLoader:
             rec_type = rec_headers.get_header('WARC-Type')
             length = rec_headers.get_header('Content-Length')
 
+        is_err = False
+
         try:
             length = int(length)
             if length < 0:
-                length = 0
+                is_err = True
         except ValueError:
-            length = 0
+            is_err = True
 
         # ================================================================
         # handle different types of records
 
+        # err condition
+        if is_err:
+            status_headers = StatusAndHeaders('-', [])
+            length = 0
         # special case: empty w/arc record (hopefully a revisit)
-        if length == 0:
+        elif length == 0:
             status_headers = StatusAndHeaders('204 No Content', [])
 
         # special case: warc records that are not expected to have http headers
diff --git a/pywb/warc/resolvingloader.py b/pywb/warc/resolvingloader.py
index 10c7caa0..393efc3e 100644
--- a/pywb/warc/resolvingloader.py
+++ b/pywb/warc/resolvingloader.py
@@ -63,6 +63,9 @@ class ResolvingLoader:
         if not headers_record or not payload_record:
             raise ArchiveLoadFailed('Could not load ' + str(cdx))
 
+        # ensure status line is valid from here
+        headers_record.status_headers.validate_statusline('204 No Content')
+
         return (headers_record.status_headers, payload_record.stream)
 
     def _resolve_path_load(self, cdx, is_original, failed_files):
diff --git a/pywb/warc/test/test_indexing.py b/pywb/warc/test/test_indexing.py
index 0e470424..0a3d6038 100644
--- a/pywb/warc/test/test_indexing.py
+++ b/pywb/warc/test/test_indexing.py
@@ -36,8 +36,9 @@ metadata)/gnu.org/software/wget/warc/wget.log 20140216012908 metadata://gnu.org/
 # bad arcs -- test error edge cases
 >>> print_cdx_index('bad.arc')
  CDX N b a m s k r M S V g
-com,example)/ 20140401000000 http://example.com/ text/html 204 3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ - - 67 134 bad.arc
-com,example)/ 20140401000000 http://example.com/ text/html 204 3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ - - 68 202 bad.arc
+com,example)/ 20140401000000 http://example.com/ text/html - 3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ - - 67 134 bad.arc
+com,example)/ 20140102000000 http://example.com/ text/plain - 3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ - - 59 202 bad.arc
+com,example)/ 20140401000000 http://example.com/ text/html - 3I42H3S6NNFQ2MSVX7XZKYAYSCX5QBYJ - - 68 262 bad.arc
 
 # Test CLI interface -- (check for num lines)
 #=================================================================
@@ -46,7 +47,7 @@ com,example)/ 20140401000000 http://example.com/ text/html 204 3I42H3S6NNFQ2MSVX
 >>> cli_lines(['--sort', '-',  TEST_WARC_DIR])
 com,example)/ 20130729195151 http://test@example.com/ warc/revisit - B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 591 355 example-url-agnostic-revisit.warc.gz
 org,iana,example)/ 20130702195402 http://example.iana.org/ text/html 200 B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 1001 353 example-url-agnostic-orig.warc.gz
-200
+201
 
 # test writing to stdout
 >>> cli_lines(['-', TEST_WARC_DIR + 'example.warc.gz'])
diff --git a/pywb/webapp/replay_views.py b/pywb/webapp/replay_views.py
index 2ab17225..31fe4b57 100644
--- a/pywb/webapp/replay_views.py
+++ b/pywb/webapp/replay_views.py
@@ -1,9 +1,9 @@
 import re
 from io import BytesIO
 
-from pywb.utils.bufferedreaders import ChunkedDataReader
 from pywb.utils.statusandheaders import StatusAndHeaders
 from pywb.utils.wbexception import WbException, NotFoundException
+from pywb.utils.loaders import LimitReader
 
 from pywb.framework.wbrequestresponse import WbResponse
 from pywb.framework.memento import MementoResponse
@@ -105,6 +105,9 @@ class ReplayView(object):
         if redir_response:
             return redir_response
 
+        length = status_headers.get_header('content-length')
+        stream = LimitReader.wrap_stream(stream, length)
+
         # one more check for referrer-based self-redirect
         self._reject_referrer_self_redirect(wbrequest)
 
@@ -124,9 +127,6 @@ class ReplayView(object):
 
         # buffer response if buffering enabled
         if self.buffer_response:
-            if wbrequest.is_identity:
-                status_headers.remove_header('content-length')
-
             response_iter = self.buffered_response(status_headers,
                                                    response_iter)
 
@@ -165,8 +165,10 @@ class ReplayView(object):
             content = out.getvalue()
 
             content_length_str = str(len(content))
-            status_headers.headers.append(('Content-Length',
-                                           content_length_str))
+
+            # remove existing content length
+            status_headers.replace_header('Content-Length',
+                                          content_length_str)
             out.close()
 
         return content

From 890c323617436565660c647a8a5bf670d2ec9c2c Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:12:33 -0700
Subject: [PATCH 04/55] update bad.arc with empty record example

---
 sample_archive/warcs/bad.arc | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/sample_archive/warcs/bad.arc b/sample_archive/warcs/bad.arc
index 0d812251..9de41600 100644
--- a/sample_archive/warcs/bad.arc
+++ b/sample_archive/warcs/bad.arc
@@ -4,4 +4,8 @@ URL IP-address Archive-date Content-type Archive-length
 
 http://example.com/ 93.184.216.119 201404010000000000 text/html -1
 
+http://example.com/ 127.0.0.1 20140102000000 text/plain 1
+
+
 http://example.com/ 93.184.216.119 201404010000000000 text/html abc
+

From 2a318527dfb2c5721c2ab4dfe531c51bcff8f568 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:13:43 -0700
Subject: [PATCH 05/55] lxml: use lxml's parse interface instead of feed
 interface to allow xml to handle decoding unicode data, better address #36

---
 pywb/rewrite/lxml_html_rewriter.py        | 12 ++++++++++++
 pywb/rewrite/rewrite_content.py           | 12 ++++++++++--
 pywb/rewrite/test/test_regex_rewriters.py |  2 +-
 pywb/rewrite/url_rewriter.py              |  6 +++++-
 4 files changed, 28 insertions(+), 4 deletions(-)

diff --git a/pywb/rewrite/lxml_html_rewriter.py b/pywb/rewrite/lxml_html_rewriter.py
index 8aac2f54..abf28fc4 100644
--- a/pywb/rewrite/lxml_html_rewriter.py
+++ b/pywb/rewrite/lxml_html_rewriter.py
@@ -45,6 +45,18 @@ class LXMLHTMLRewriter(HTMLRewriterMixin):
         #string = string.replace(u'</html>', u'')
         self.parser.feed(string)
 
+    def parse(self, stream):
+        self.out = self.AccumBuff()
+
+        lxml.etree.parse(stream, self.parser)
+
+        result = self.out.getvalue()
+
+        # Clear buffer to create new one for next rewrite()
+        self.out = None
+
+        return result
+
     def _internal_close(self):
         if self.started:
             self.parser.close()
diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index 720bf9f1..c2d17047 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -123,12 +123,20 @@ class RewriteContent:
 
         return (status_headers, gen, True)
 
+    def _parse_full_gen(self, rewriter, encoding, stream):
+        buff = rewriter.parse(stream)
+        buff = buff.encode(encoding)
+        yield buff
+
     # Create rewrite stream,  may even be chunked by front-end
     def _rewriting_stream_gen(self, rewriter, encoding, stream_raw,
                               stream, first_buff=None):
+
+        if stream_raw:
+            return self._parse_full_gen(rewriter, encoding, stream)
+
         def do_rewrite(buff):
-            if not stream_raw:
-                buff = self._decode_buff(buff, stream, encoding)
+            buff = self._decode_buff(buff, stream, encoding)
 
             buff = rewriter.rewrite(buff)
 
diff --git a/pywb/rewrite/test/test_regex_rewriters.py b/pywb/rewrite/test/test_regex_rewriters.py
index fac38789..17bf0a75 100644
--- a/pywb/rewrite/test/test_regex_rewriters.py
+++ b/pywb/rewrite/test/test_regex_rewriters.py
@@ -51,7 +51,7 @@ r"""
 
 # scheme-agnostic
 >>> _test_js('cool_Location = "//example.com/abc.html" //comment')
-'cool_Location = "/web/20131010em_///example.com/abc.html" //comment'
+'cool_Location = "/web/20131010em_/http://example.com/abc.html" //comment'
 
 
 #=================================================================
diff --git a/pywb/rewrite/url_rewriter.py b/pywb/rewrite/url_rewriter.py
index 9545a040..cb35607f 100644
--- a/pywb/rewrite/url_rewriter.py
+++ b/pywb/rewrite/url_rewriter.py
@@ -14,7 +14,7 @@ class UrlRewriter(object):
 
     NO_REWRITE_URI_PREFIX = ['#', 'javascript:', 'data:', 'mailto:', 'about:']
 
-    PROTOCOLS = ['http:', 'https:', '//', 'ftp:', 'mms:', 'rtsp:', 'wais:']
+    PROTOCOLS = ['http:', 'https:', 'ftp:', 'mms:', 'rtsp:', 'wais:']
 
     def __init__(self, wburl, prefix):
         self.wburl = wburl if isinstance(wburl, WbUrl) else WbUrl(wburl)
@@ -32,6 +32,10 @@ class UrlRewriter(object):
 
         isAbs = any(url.startswith(x) for x in self.PROTOCOLS)
 
+        if url.startswith('//'):
+            isAbs = True
+            url = 'http:' + url
+
         # Optimized rewriter for
         # -rel urls that don't start with / and
         # do not contain ../ and no special mod

From c23dd7bda49519d38272b16591183da19ff2fafe Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:17:08 -0700
Subject: [PATCH 06/55] wombat update: - support scheme-relative (//) urls -
 override dom manipulation (appendChild, insertBefore, replaceChild) - disable
 Worker() interface for now

---
 pywb/static/wombat.js | 105 ++++++++++++++++++++++++++++++++++++++++--
 1 file changed, 101 insertions(+), 4 deletions(-)

diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index 112d6d37..47d5042b 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -52,25 +52,49 @@ WB_wombat_init = (function() {
         return false;
     }
 
+    function starts_with(string, prefix) {
+        if (string.indexOf(prefix) == 0) {
+            return prefix;
+        } else {
+            return undefined;
+        }
+    }
+
     //============================================
+/*    function rewrite_url_debug(url) {
+        rewritten = rewrite_url_(url);
+        if (url != rewritten) {
+            console.log('REWRITE: ' + url + ' -> ' + rewritten);
+        } else {
+            console.log('NOT REWRITTEN ' + url);
+        }
+        return rewritten;
+    }
+*/
     function rewrite_url(url) {
         var http_prefix = "http://";
         var https_prefix = "https://";
+        var rel_prefix = "//";
 
         // If not dealing with a string, just return it
         if (!url || (typeof url) != "string") {
             return url;
         }
 
+        // ignore anchors
+        if (starts_with(url, "#")) {
+            return url;
+        }
+
         // If starts with prefix, no rewriting needed
         // Only check replay prefix (no date) as date may be different for each
         // capture
-        if (url.indexOf(wb_replay_prefix) == 0) {
+        if (starts_with(url, wb_replay_prefix)) {
             return url;
         }
 
         // If server relative url, add prefix and original host
-        if (url.charAt(0) == "/") {
+        if (url.charAt(0) == "/" && !starts_with(url, rel_prefix)) {
 
             // Already a relative url, don't make any changes!
             if (url.indexOf(wb_capture_date_part) >= 0) {
@@ -81,13 +105,21 @@ WB_wombat_init = (function() {
         }
 
         // If full url starting with http://, add prefix
-        if (url.indexOf(http_prefix) == 0 || url.indexOf(https_prefix) == 0) {
+
+        var prefix = starts_with(url, http_prefix) || 
+                     starts_with(url, https_prefix) || 
+                     starts_with(url, rel_prefix);
+
+        if (prefix) {
+            if (starts_with(url, prefix + window.location.host + '/')) {
+                return url;
+            }
             return wb_replay_date_prefix + url;
         }
 
         // May or may not be a hostname, call function to determine
         // If it is, add the prefix and make sure port is removed
-        if (is_host_url(url)) {
+        if (is_host_url(url) && !starts_with(url, window.location.host + '/')) {
             return wb_replay_date_prefix + http_prefix + url;
         }
 
@@ -252,12 +284,73 @@ WB_wombat_init = (function() {
 
         function open_rewritten(method, url, async, user, password) {
             url = rewrite_url(url);
+
+            // defaults to true
+            if (async != false) {
+                async = true;
+            }
+
             return orig.call(this, method, url, async, user, password);
         }
 
         window.XMLHttpRequest.prototype.open = open_rewritten;
     }
 
+    function init_worker_override() {
+        if (!window.Worker) {
+            return;
+        }
+
+        // for now, disabling workers until override of worker content can be supported
+        // hopefully, pages depending on workers will have a fallback
+        window.Worker = undefined;
+    }
+
+
+    function rewrite_attr(elem, name) {
+        if (!elem || !elem.getAttribute) {
+            return;
+        }
+
+        value = elem.getAttribute(name);
+
+        if (!value) {
+            return;
+        }
+
+        if (starts_with(value, "javascript:")) {
+            return;
+        }
+
+        orig_value = value;        
+        value = rewrite_url(value);
+           
+        elem.setAttribute(name, value);
+    }
+
+    function init_dom_override() {
+        if (!Element ||
+            !Element.prototype) {
+            return;
+        }
+
+        function replace_dom_func(funcname) {
+
+            var orig = Element.prototype[funcname];
+
+            Element.prototype[funcname] = function() {
+                rewrite_attr(arguments[0], "src");
+                rewrite_attr(arguments[0], "href");
+
+                return orig.apply(this, arguments);
+            }
+        }
+
+        replace_dom_func("appendChild");
+        replace_dom_func("insertBefore");
+        replace_dom_func("replaceChild");
+    }
+
     //============================================
     function wombat_init(replay_prefix, capture_date, orig_host, timestamp) {
         wb_replay_prefix = replay_prefix;
@@ -287,6 +380,10 @@ WB_wombat_init = (function() {
 
         // Ajax
         init_ajax_rewrite();
+        init_worker_override();
+
+        // DOM
+        init_dom_override();
 
         // Random
         init_seeded_random(timestamp);       

From a3310616918c8283939535e737cac60eaed05487 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:19:07 -0700
Subject: [PATCH 07/55] minor tweaks: add default static_path for jinja, remove
 unused import

---
 pywb/webapp/cdx_api_handler.py | 1 -
 pywb/webapp/views.py           | 2 +-
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/pywb/webapp/cdx_api_handler.py b/pywb/webapp/cdx_api_handler.py
index e54de959..e3e16a72 100644
--- a/pywb/webapp/cdx_api_handler.py
+++ b/pywb/webapp/cdx_api_handler.py
@@ -1,6 +1,5 @@
 from pywb.cdx.cdxserver import create_cdx_server
 
-from pywb.framework.archivalrouter import ArchivalRouter, Route
 from pywb.framework.basehandlers import BaseHandler
 from pywb.framework.wbrequestresponse import WbResponse
 
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index cc1ea7be..c452d0e0 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -66,7 +66,7 @@ def is_wb_handler(obj):
 
 #=================================================================
 class J2TemplateView:
-    env_globals = {}
+    env_globals = {'static_path': 'static/default'}
 
     def __init__(self, filename):
         template_dir, template_file = path.split(filename)

From 02fe78cb0bc27534f4bafd0feca971b47bd4c0e7 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 7 Apr 2014 17:41:14 -0700
Subject: [PATCH 08/55] update changes, add more tests

---
 CHANGES.rst                              | 6 +++++-
 pywb/utils/test/test_loaders.py          | 4 ++++
 pywb/utils/test/test_statusandheaders.py | 1 +
 3 files changed, 10 insertions(+), 1 deletion(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 129f2307..2a05be24 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -1,7 +1,11 @@
 pywb 0.3.1 changelist
 ~~~~~~~~~~~~~~~~~~~~~
 
-* Improve lxml rewriting, letting lxml handle decoding from bytestream (to address #36)
+* Update wombat.js to support: scheme-relative urls rewriting, dom manipulation rewriting, disable web Worker api which could leak to live requests
+
+* Fixed support for empty arc/warc records. Indexed with '-', replay with '204 No Content'
+
+* Improve lxml rewriting, letting lxml handle parsing and decoding from bytestream directly (to address #36)
 
 
 pywb 0.3.0 changelist
diff --git a/pywb/utils/test/test_loaders.py b/pywb/utils/test/test_loaders.py
index c88805b5..88368146 100644
--- a/pywb/utils/test/test_loaders.py
+++ b/pywb/utils/test/test_loaders.py
@@ -32,6 +32,10 @@ True
 >>> BlockLoader(HMACCookieMaker('test', 'test', 5)).load('http://example.com', 41, 14).read()
 'Example Domain'
 
+# fixed cookie
+>>> BlockLoader('some=value').load('http://example.com', 41, 14).read()
+'Example Domain'
+
 # test with extra id, ensure 4 parts of the A-B=C-D form are present
 >>> len(re.split('[-=]', HMACCookieMaker('test', 'test', 5).make('extra')))
 4
diff --git a/pywb/utils/test/test_statusandheaders.py b/pywb/utils/test/test_statusandheaders.py
index 061532a3..2ee894b9 100644
--- a/pywb/utils/test/test_statusandheaders.py
+++ b/pywb/utils/test/test_statusandheaders.py
@@ -42,6 +42,7 @@ from io import BytesIO
 status_headers_1 = "\
 HTTP/1.0 200 OK\r\n\
 Content-Type: ABC\r\n\
+HTTP/1.0 200 OK\r\n\
 Some: Value\r\n\
 Multi-Line: Value1\r\n\
     Also This\r\n\

From 8897a0a7c96017f359c8a28b78f584ea6cceef84 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 8 Apr 2014 21:49:04 -0700
Subject: [PATCH 09/55] decompressingbufferedreader: default to 'gzip'
 decompression instead of none. ChunkedDataReader also automatically attempts
 decompression, by default Add tests to verify

---
 pywb/utils/bufferedreaders.py           |  2 +-
 pywb/utils/test/test_bufferedreaders.py | 17 +++++++++++++++--
 2 files changed, 16 insertions(+), 3 deletions(-)

diff --git a/pywb/utils/bufferedreaders.py b/pywb/utils/bufferedreaders.py
index f434e492..aece175f 100644
--- a/pywb/utils/bufferedreaders.py
+++ b/pywb/utils/bufferedreaders.py
@@ -30,7 +30,7 @@ class DecompressingBufferedReader(object):
     DECOMPRESSORS = {'gzip': gzip_decompressor}
 
     def __init__(self, stream, block_size=1024,
-                 decomp_type=None,
+                 decomp_type='gzip',
                  starting_data=None):
         self.stream = stream
         self.block_size = block_size
diff --git a/pywb/utils/test/test_bufferedreaders.py b/pywb/utils/test/test_bufferedreaders.py
index 558f8782..d061218c 100644
--- a/pywb/utils/test/test_bufferedreaders.py
+++ b/pywb/utils/test/test_bufferedreaders.py
@@ -10,8 +10,8 @@ r"""
 >>> DecompressingBufferedReader(open(test_cdx_dir + 'iana.cdx', 'rb'), decomp_type = 'gzip').readline()
 ' CDX N b a m s k r M S V g\n'
 
-# decompress with on the fly compression
->>> DecompressingBufferedReader(BytesIO(compress('ABC\n1234\n')), decomp_type = 'gzip').read()
+# decompress with on the fly compression, default gzip compression
+>>> DecompressingBufferedReader(BytesIO(compress('ABC\n1234\n'))).read()
 'ABC\n1234\n'
 
 # error: invalid compress type
@@ -27,6 +27,11 @@ Exception: Decompression type not supported: bzip2
 Traceback (most recent call last):
 error: Error -3 while decompressing: incorrect header check
 
+# invalid output when reading compressed data as not compressed
+>>> DecompressingBufferedReader(BytesIO(compress('ABC')), decomp_type = None).read() != 'ABC'
+True
+
+
 # DecompressingBufferedReader readline() with decompression (zipnum file, no header)
 >>> DecompressingBufferedReader(open(test_zip_dir + 'zipnum-sample.cdx.gz', 'rb'), decomp_type = 'gzip').readline()
 'com,example)/ 20140127171200 http://example.com text/html 200 B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 1046 334 dupes.warc.gz\n'
@@ -60,6 +65,14 @@ Non-chunked data:
 >>> ChunkedDataReader(BytesIO("xyz123!@#")).read()
 'xyz123!@#'
 
+Non-chunked, compressed data
+>>> ChunkedDataReader(BytesIO(compress('ABCDEF'))).read()
+'ABCDEF'
+
+Non-chunked, compressed data
+>>> DecompressingBufferedReader(ChunkedDataReader(BytesIO(compress('\nABCDEF\nGHIJ')))).read()
+'\nABCDEF\nGHIJ'
+
 Starts like chunked data, but isn't:
 >>> c = ChunkedDataReader(BytesIO("1\r\nxyz123!@#"));
 >>> c.read() + c.read()

From 1fb6f5eff76ea8c4eaf664dd3ad02483707e1b00 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 8 Apr 2014 22:43:32 -0700
Subject: [PATCH 10/55] add rewriter_handler, frame wrapper support!

---
 pywb/apps/rewrite_live.py      |  16 ++++
 pywb/static/wb.css             |  39 +++++++-
 pywb/static/wb.js              |  54 ++++++++++-
 pywb/static/wombat.js          | 106 +++++++++++++++------
 pywb/ui/frame_insert.html      |  54 +++++++++++
 pywb/webapp/rewrite_handler.py | 165 +++++++++++++++++++++++++++++++++
 6 files changed, 398 insertions(+), 36 deletions(-)
 create mode 100644 pywb/apps/rewrite_live.py
 create mode 100644 pywb/ui/frame_insert.html
 create mode 100644 pywb/webapp/rewrite_handler.py

diff --git a/pywb/apps/rewrite_live.py b/pywb/apps/rewrite_live.py
new file mode 100644
index 00000000..e3b8f45b
--- /dev/null
+++ b/pywb/apps/rewrite_live.py
@@ -0,0 +1,16 @@
+from pywb.framework.wsgi_wrappers import init_app, start_wsgi_server
+
+from pywb.webapp.rewrite_handler import create_rewrite_app
+
+#=================================================================
+# init cdx server app
+#=================================================================
+
+application = init_app(create_rewrite_app, load_yaml=False)
+
+
+def main():  # pragma: no cover
+    start_wsgi_server(application, 'Rewrite App', default_port=8090)
+
+if __name__ == "__main__":
+    main()
diff --git a/pywb/static/wb.css b/pywb/static/wb.css
index 1367a2fe..3a36f54a 100644
--- a/pywb/static/wb.css
+++ b/pywb/static/wb.css
@@ -5,11 +5,12 @@
     top: 0px !important;
     left: 0px !important;
     font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif !important;
-    position: absolute !important;
-    padding: 4px !important;
+    position: fixed !important;
+ /*   padding: 4px !important; */
+    height: 40px !important;
     width: 100% !important;
     font-size: 24px !important;
-    border: 1px solid !important; 
+/*    border: 1px solid !important; */
     background-color: lightYellow !important; 
     color: black !important;
     text-align: center !important;
@@ -17,3 +18,35 @@
     line-height: normal !important;
 }
 
+.wb_iframe_div
+{
+    width: 100%;
+    height: 100%;
+    padding: 40px 8px 8px 0px;
+    border: none;
+    box-sizing: border-box;
+    -moz-box-sizing: border-box;
+    -webkit-box-sizing: border-box;
+}
+
+.wb_iframe
+{
+    width: 100%;
+    height: 100%;
+    border: 4px solid firebrick;
+}
+
+.wb_iframe_all
+{
+    width: 100%;
+    height: 100%;
+    border: none;
+    background-color: firebrick;
+    padding: 44px 4px 4px 4px;
+    box-sizing: border-box;
+    -moz-box-sizing: border-box;
+    -webkit-box-sizing: border-box;
+}
+
+
+
diff --git a/pywb/static/wb.js b/pywb/static/wb.js
index ae5b586c..41343f81 100644
--- a/pywb/static/wb.js
+++ b/pywb/static/wb.js
@@ -26,6 +26,10 @@ function init_banner() {
         return;
     }
 
+    if (window.top != window.self) {
+        return;
+    }
+
     if (!banner) {
         banner = document.createElement("wb_div");
         banner.setAttribute("id", BANNER_ID);
@@ -41,12 +45,54 @@ function init_banner() {
     }
 }
 
-var readyStateCheckInterval = setInterval(function() {
+function add_event(name, func, object) {
+    if (object.addEventListener) {
+        object.addEventListener(name, func);
+        return true;
+    } else if (object.attachEvent) {
+        object.attachEvent("on" + name, func);
+        return true;
+    } else {
+        return false;
+    }
+}
+
+function remove_event(name, func, object) {
+    if (object.removeEventListener) {
+        object.removeEventListener(name, func);
+        return true;
+    } else if (object.detachEvent) {
+        object.detachEvent("on" + name, func);
+        return true;
+    } else {
+        return false;
+    }
+}
+
+var notified_top = false;
+
+var detect_on_init = function() {
+    if (!notified_top && window && window.top && (window.self != window.top) && window.WB_wombat_location) {
+        if (!wbinfo.is_embed) {
+            window.top.postMessage(window.WB_wombat_location.href, "*");
+        }
+        notified_top = true;
+    }
+
     if (document.readyState === "interactive" ||
         document.readyState === "complete") {
         
         init_banner();
-        
-        clearInterval(readyStateCheckInterval);
+
+        remove_event("readystatechange", detect_on_init, document);
     }
-}, 10);
+}
+
+add_event("readystatechange", detect_on_init, document);
+
+/*
+if ((window.self == window.top) && !wbinfo.is_embed && window.location.href.indexOf("/rewrite/fr_/") == -1) {
+    new_loc = window.location.href.replace("/rewrite/", "/rewrite/fr_/");
+    window.location.replace(new_loc);
+}
+*/
diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index 47d5042b..457d7d5a 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -60,18 +60,28 @@ WB_wombat_init = (function() {
         }
     }
 
+    function ends_with(str, suffix) {
+        if (str.indexOf(suffix, str.length - suffix.length) !== -1) {
+            return suffix;
+        } else {
+            return undefined;
+        }
+    }
+
     //============================================
-/*    function rewrite_url_debug(url) {
+    var rewrite_url = rewrite_url_debug;
+
+    function rewrite_url_debug(url) {
         rewritten = rewrite_url_(url);
         if (url != rewritten) {
             console.log('REWRITE: ' + url + ' -> ' + rewritten);
         } else {
-            console.log('NOT REWRITTEN ' + url);
+            //console.log('NOT REWRITTEN ' + url);
         }
         return rewritten;
     }
-*/
-    function rewrite_url(url) {
+
+    function rewrite_url_(url) {
         var http_prefix = "http://";
         var https_prefix = "https://";
         var rel_prefix = "//";
@@ -144,13 +154,22 @@ WB_wombat_init = (function() {
         if (!href) {
             return "";
         }
+        
         href = href.toString();
+
         var index = href.indexOf("/http", 1);
+        
+        // extract original url from wburl
         if (index > 0) {
-            return href.substr(index + 1);
-        } else {
-            return href;
+            href = href.substr(index + 1);
         }
+
+        // remove trailing slash
+        if (ends_with(href, "/")) {
+            href = href.substring(0, href.length - 1);
+        }
+
+        return href;
     }
 
     //============================================
@@ -196,26 +215,39 @@ WB_wombat_init = (function() {
     }
 
     //============================================
-    function update_location(req_href, orig_href, location) {
-        if (req_href && (extract_orig(orig_href) != extract_orig(req_href))) {
-            var final_href = rewrite_url(req_href);
-
-            location.href = final_href;
+    function update_location(req_href, orig_href, actual_location) {
+        if (!req_href || req_href == orig_href) {
+            return;
         }
+
+        ext_orig = extract_orig(orig_href);
+        ext_req = extract_orig(req_href);
+
+        if (!ext_orig || ext_orig == ext_req) {
+            return;
+        }
+
+        var final_href = rewrite_url(req_href);
+
+        console.log(actual_location.href + ' -> ' + final_href);
+
+        actual_location.href = final_href;
     }
 
     //============================================
     function check_location_change(loc, is_top) {
         var locType = (typeof loc);
 
-        var location = (is_top ? window.top.location : window.location);
+        var actual_location = (is_top ? window.top.location : window.location);
+
+        //console.log(loc.href);
 
         // String has been assigned to location, so assign it
         if (locType == "string") {
-            update_location(loc, location.href, location)
+            update_location(loc, actual_location.href, actual_location)
 
         } else if (locType == "object") {
-            update_location(loc.href, loc._orig_href, location);
+            update_location(loc.href, loc._orig_href, actual_location);
         }
     }
 
@@ -306,7 +338,6 @@ WB_wombat_init = (function() {
         window.Worker = undefined;
     }
 
-
     function rewrite_attr(elem, name) {
         if (!elem || !elem.getAttribute) {
             return;
@@ -324,25 +355,41 @@ WB_wombat_init = (function() {
 
         orig_value = value;        
         value = rewrite_url(value);
-           
+
         elem.setAttribute(name, value);
     }
 
     function init_dom_override() {
-        if (!Element ||
-            !Element.prototype) {
+        if (!Node || !Node.prototype) {
             return;
         }
 
         function replace_dom_func(funcname) {
+            var orig = Node.prototype[funcname];
 
-            var orig = Element.prototype[funcname];
-
-            Element.prototype[funcname] = function() {
+            Node.prototype[funcname] = function() {
                 rewrite_attr(arguments[0], "src");
                 rewrite_attr(arguments[0], "href");
 
-                return orig.apply(this, arguments);
+                child = arguments[0];
+
+                var desc;
+
+                if (child instanceof DocumentFragment) {
+                    desc = child.querySelectorAll("*[href],*[src]");
+                } else if (child.getElementsByTagName) {
+                    desc = child.getElementsByTagName("*");
+                }
+
+                if (desc) {
+                    for (var i = 0; i < desc.length; i++) {
+                        rewrite_attr(desc[i], "src");
+                        rewrite_attr(desc[i], "href");
+                    }
+                }
+
+                result = orig.apply(this, arguments);
+                return result;
             }
         }
 
@@ -363,13 +410,14 @@ WB_wombat_init = (function() {
         window.WB_wombat_location = copy_location_obj(window.self.location);
         document.WB_wombat_location = window.WB_wombat_location;
 
-        if (window.self.location != window.top.location) {
-            window.top.WB_wombat_location = copy_location_obj(window.top.location);
-        }
+        //if (window.self.location != window.top.location) {
+        //    window.top.WB_wombat_location = copy_location_obj(window.top.location);
+        //}
+        window.top.WB_wombat_location = window.WB_wombat_location;
 
-        if (window.opener) {
-            window.opener.WB_wombat_location = copy_location_obj(window.opener.location);
-        }
+        //if (window.opener) {
+        //    window.opener.WB_wombat_location = copy_location_obj(window.opener.location);
+        //}
 
         // Domain
         document.WB_wombat_domain = orig_host;
diff --git a/pywb/ui/frame_insert.html b/pywb/ui/frame_insert.html
new file mode 100644
index 00000000..fd772251
--- /dev/null
+++ b/pywb/ui/frame_insert.html
@@ -0,0 +1,54 @@
+<html>
+<head>
+<!-- Start WB Insert -->
+<script>
+  wbinfo = {}
+  wbinfo.capture_str = "{{ timestamp | format_ts }}";
+  wbinfo.is_embed = false;
+  wbinfo.prefix = "{{ wbrequest.wb_prefix }}";
+  wbinfo.capture_url = "{{ url }}";
+</script>
+<script src='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.js'> </script>
+<script>
+
+window.addEventListener("message", update_url, false);
+
+function push_state(url) {
+    state = {}
+    state.inner_url = wbinfo.prefix + url;
+    state.outer_url = wbinfo.prefix + "fr_/" + url;
+
+    if (url == wbinfo.capture_url) {
+        return;
+    }
+
+    window.history.replaceState(state, "", state.outer_url);
+}
+
+function pop_state(url) {
+    window.frames[0].src = url;
+}
+
+function update_url(event) {
+    if (event.source == window.frames[0]) {
+        push_state(event.data);
+    }
+}
+
+window.onpopstate = function(event) {
+    var curr_state = event.state;
+    
+    if (curr_state) {
+        pop_state(curr_state.outer_url);
+    }
+}
+
+</script>
+<link rel='stylesheet' href='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.css'/>
+<!-- End WB Insert -->
+<body style="margin: 0px; padding: 0px;">
+<div class="wb_iframe_div">
+<iframe src="{{ wbrequest.wb_prefix + embed_url }}" seamless="seamless" frameborder="0" scrolling="yes" class="wb_iframe"/>
+</div>
+</body>
+</html>
diff --git a/pywb/webapp/rewrite_handler.py b/pywb/webapp/rewrite_handler.py
new file mode 100644
index 00000000..07f6644c
--- /dev/null
+++ b/pywb/webapp/rewrite_handler.py
@@ -0,0 +1,165 @@
+from pywb.framework.basehandlers import WbUrlHandler
+from pywb.framework.wbrequestresponse import WbResponse
+from pywb.framework.archivalrouter import ArchivalRouter, Route
+
+from pywb.rewrite.rewrite_content import RewriteContent
+
+from handlers import StaticHandler
+
+from pywb.utils.canonicalize import canonicalize
+from pywb.utils.timeutils import datetime_to_timestamp
+from pywb.utils.statusandheaders import StatusAndHeaders
+
+from pywb.rewrite.rewriterules import use_lxml_parser
+
+import datetime
+#import urllib2
+import urlparse
+import httplib
+import requests
+
+from io import BytesIO, BufferedReader
+
+from views import load_template_file
+
+
+class RewriteHandler(WbUrlHandler):  # pragma: no cover
+    def __init__(self, head_insert_view=None):
+        #use_lxml_parser()
+        self.rewriter = RewriteContent()
+        self.head_insert_view = load_template_file('ui/head_insert.html', 'Head Insert')
+        self.frame_insert_view = load_template_file('ui/frame_insert.html', 'Frame Insert')
+
+    def proxy_request(self, url, env):
+
+        method = env['REQUEST_METHOD'].upper()
+        input_ = env['wsgi.input']
+
+        ua = env['HTTP_USER_AGENT']
+
+        req_headers = {'User-Agent': ua}
+
+        if url.startswith('//'):
+            url = 'http:' + url
+
+        if method in ('POST', 'PUT'):
+            data = input_
+        else:
+            data = None
+
+        response = self.do_http_request(method,
+                                        url,
+                                        data,
+                                        req_headers)
+        code = response.status_code
+
+        # remove transfer-encoding as raw stream
+        # is already de-chunked
+        try:
+            del response.headers['transfer-encoding']
+        except KeyError:
+            pass
+
+        headers = response.headers.items()
+        stream = response.raw
+
+        status_headers = StatusAndHeaders(str(code), headers)
+
+        return (status_headers, stream)
+
+    def do_http_request(self, method, url, data, req_headers):
+        req = requests.request(method=method,
+                               url=url,
+                               data=data,
+                               headers=req_headers,
+                               allow_redirects=False,
+                               stream=True)
+        return req
+
+    def do_request(self, method, url, data, req_headers):
+        splits = urlparse.urlsplit(url)
+
+        hostport = splits.netloc.split(':', 1)
+        host = hostport[0]
+
+        if len(hostport) == 2:
+            port = hostport[1]
+        else:
+            port = None
+
+        path = splits.path
+
+        if splits.query:
+            path += '?' + splits.query
+
+        if splits.scheme == 'https':
+            conn = httplib.HTTPSConnection(host, port)
+        else:
+            conn = httplib.HTTPConnection(host, port)
+
+        conn.request(method.upper(), path, data, req_headers)
+        return conn.getresponse()
+
+    def __call__(self, wbrequest):
+
+        url = wbrequest.wb_url.url
+
+        if wbrequest.wb_url.mod == 'fr_':
+            embed_url = wbrequest.wb_url.to_str(mod='')
+            timestamp = datetime_to_timestamp(datetime.datetime.utcnow())
+
+            return self.frame_insert_view.render_response(embed_url=embed_url,
+                                                          wbrequest=wbrequest,
+                                                          timestamp=timestamp,
+                                                          url=url)
+
+        ts_err = url.split('///')
+        if len(ts_err) > 1:
+            url = 'http://' + ts_err[1]
+
+        try:
+            status_headers, stream = self.proxy_request(url, wbrequest.env)
+        except Exception:
+            print 'ERR on ', url
+            raise
+
+        urlkey = canonicalize(url)
+
+        cdx = {'urlkey': urlkey,
+               'timestamp': datetime_to_timestamp(datetime.datetime.utcnow()),
+               'original': url,
+               'statuscode' : status_headers.statusline.split(' ')[0],
+               'mimetype' : status_headers.get_header('Content-Type')
+              }
+
+
+        head_insert_func = self.get_head_insert_func(wbrequest, cdx)
+
+        result = self.rewriter.rewrite_content(wbrequest.urlrewriter,
+                                               status_headers,
+                                               stream,
+                                               head_insert_func=head_insert_func,
+                                               urlkey=urlkey)
+
+        status_headers, gen, is_rewritten = result
+
+        return WbResponse(status_headers, gen)
+
+
+    def get_head_insert_func(self, wbrequest, cdx):
+        # no head insert specified
+        if not self.head_insert_view:
+            return None
+
+        def make_head_insert(rule):
+            return (self.head_insert_view.
+                    render_to_string(wbrequest=wbrequest,
+                                     cdx=cdx,
+                                     rule=rule))
+        return make_head_insert
+
+def create_rewrite_app(): # pragma: no cover
+    routes = [Route('rewrite', RewriteHandler()),
+              Route('static/default', StaticHandler('pywb/static/'))
+             ]
+    return ArchivalRouter(routes, hostpaths=['http://localhost:8080'])

From 19f2df471761fbf6e1c071510f9dd8863b9527bd Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 9 Apr 2014 10:01:44 -0700
Subject: [PATCH 11/55] refactor: - move is_identity(), is_embed() to wburl
 from wbrequest - add is_mainpage() predicate - add create_template() to each
 J2TemplateView to create itself - add HeadInsertView to create a reusable
 head insert for RewriteContent - add 'mp_' as modifier for frames mode to be
 used as possible   modifier with HTMLRewriter

---
 pywb/framework/wbrequestresponse.py | 11 ----
 pywb/rewrite/html_rewriter.py       | 82 ++++++++++++++---------------
 pywb/rewrite/lxml_html_rewriter.py  | 11 +---
 pywb/rewrite/rewrite_content.py     |  6 ++-
 pywb/rewrite/wburl.py               | 15 ++++++
 pywb/ui/frame_insert.html           |  7 +--
 pywb/ui/head_insert.html            |  2 +-
 pywb/webapp/pywb_init.py            | 27 ++++++----
 pywb/webapp/replay_views.py         | 21 +++-----
 pywb/webapp/rewrite_handler.py      | 48 +++++------------
 pywb/webapp/views.py                | 34 ++++++++----
 11 files changed, 127 insertions(+), 137 deletions(-)

diff --git a/pywb/framework/wbrequestresponse.py b/pywb/framework/wbrequestresponse.py
index ba1f6a02..11fd99db 100644
--- a/pywb/framework/wbrequestresponse.py
+++ b/pywb/framework/wbrequestresponse.py
@@ -87,17 +87,6 @@ class WbRequest(object):
 
         self._parse_extra()
 
-    @property
-    def is_embed(self):
-        return (self.wb_url and
-                self.wb_url.mod and
-                self.wb_url.mod != 'id_')
-
-    @property
-    def is_identity(self):
-        return (self.wb_url and
-                self.wb_url.mod == 'id_')
-
     def _is_ajax(self):
         value = self.env.get('HTTP_X_REQUESTED_WITH')
         if value and value.lower() == 'xmlhttprequest':
diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index 5a10d651..99cab8d0 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -19,35 +19,40 @@ class HTMLRewriterMixin(object):
     to rewriters for script and css
     """
 
-    REWRITE_TAGS = {
-        'a':       {'href': ''},
-        'applet':  {'codebase': 'oe_',
-                    'archive': 'oe_'},
-        'area':    {'href': ''},
-        'base':    {'href': ''},
-        'blockquote': {'cite': ''},
-        'body':    {'background': 'im_'},
-        'del':     {'cite': ''},
-        'embed':   {'src': 'oe_'},
-        'head':    {'': ''},  # for head rewriting
-        'iframe':  {'src': 'if_'},
-        'img':     {'src': 'im_'},
-        'ins':     {'cite': ''},
-        'input':   {'src': 'im_'},
-        'form':    {'action': ''},
-        'frame':   {'src': 'fr_'},
-        'link':    {'href': 'oe_'},
-        'meta':    {'content': ''},
-        'object':  {'codebase': 'oe_',
-                    'data': 'oe_'},
-        'q':       {'cite': ''},
-        'ref':     {'href': 'oe_'},
-        'script':  {'src': 'js_'},
-        'div':     {'data-src': '',
-                    'data-uri': ''},
-        'li':      {'data-src': '',
-                    'data-uri': ''},
-    }
+    @staticmethod
+    def _init_rewrite_tags(defmod):
+        rewrite_tags = {
+            'a':       {'href': defmod},
+            'applet':  {'codebase': 'oe_',
+                        'archive': 'oe_'},
+            'area':    {'href': defmod},
+            'base':    {'href': defmod},
+            'blockquote': {'cite': defmod},
+            'body':    {'background': 'im_'},
+            'del':     {'cite': defmod},
+            'embed':   {'src': 'oe_'},
+            'head':    {'': defmod},  # for head rewriting
+            'iframe':  {'src': 'if_'},
+            'img':     {'src': 'im_'},
+            'ins':     {'cite': defmod},
+            'input':   {'src': 'im_'},
+            'form':    {'action': defmod},
+            'frame':   {'src': 'fr_'},
+            'link':    {'href': 'oe_'},
+            'meta':    {'content': defmod},
+            'object':  {'codebase': 'oe_',
+                        'data': 'oe_'},
+            'q':       {'cite': defmod},
+            'ref':     {'href': 'oe_'},
+            'script':  {'src': 'js_'},
+            'div':     {'data-src': defmod,
+                        'data-uri': defmod},
+            'li':      {'data-src': defmod,
+                        'data-uri': defmod},
+        }
+
+        return rewrite_tags
+
 
     STATE_TAGS = ['script', 'style']
 
@@ -70,7 +75,8 @@ class HTMLRewriterMixin(object):
     def __init__(self, url_rewriter,
                  head_insert=None,
                  js_rewriter_class=JSRewriter,
-                 css_rewriter_class=CSSRewriter):
+                 css_rewriter_class=CSSRewriter,
+                 defmod=''):
 
         self.url_rewriter = url_rewriter
         self._wb_parse_context = None
@@ -79,6 +85,7 @@ class HTMLRewriterMixin(object):
         self.css_rewriter = css_rewriter_class(url_rewriter)
 
         self.head_insert = head_insert
+        self.rewrite_tags = self._init_rewrite_tags(defmod)
 
     # ===========================
     META_REFRESH_REGEX = re.compile('^[\\d.]+\\s*;\\s*url\\s*=\\s*(.+?)\\s*$',
@@ -140,9 +147,9 @@ class HTMLRewriterMixin(object):
             self.head_insert = None
 
         # attr rewriting
-        handler = self.REWRITE_TAGS.get(tag)
+        handler = self.rewrite_tags.get(tag)
         if not handler:
-            handler = self.REWRITE_TAGS.get('')
+            handler = self.rewrite_tags.get('')
 
         if not handler:
             return False
@@ -245,16 +252,9 @@ class HTMLRewriterMixin(object):
 
 #=================================================================
 class HTMLRewriter(HTMLRewriterMixin, HTMLParser):
-    def __init__(self, url_rewriter,
-                 head_insert=None,
-                 js_rewriter_class=JSRewriter,
-                 css_rewriter_class=CSSRewriter):
-
+    def __init__(self, *args, **kwargs):
         HTMLParser.__init__(self)
-        super(HTMLRewriter, self).__init__(url_rewriter,
-                                           head_insert,
-                                           js_rewriter_class,
-                                           css_rewriter_class)
+        super(HTMLRewriter, self).__init__(*args, **kwargs)
 
     def feed(self, string):
         try:
diff --git a/pywb/rewrite/lxml_html_rewriter.py b/pywb/rewrite/lxml_html_rewriter.py
index abf28fc4..29355be4 100644
--- a/pywb/rewrite/lxml_html_rewriter.py
+++ b/pywb/rewrite/lxml_html_rewriter.py
@@ -17,15 +17,8 @@ from html_rewriter import HTMLRewriterMixin
 class LXMLHTMLRewriter(HTMLRewriterMixin):
     END_HTML = re.compile(r'</\s*html\s*>', re.IGNORECASE)
 
-    def __init__(self, url_rewriter,
-                 head_insert=None,
-                 js_rewriter_class=JSRewriter,
-                 css_rewriter_class=CSSRewriter):
-
-        super(LXMLHTMLRewriter, self).__init__(url_rewriter,
-                                               head_insert,
-                                               js_rewriter_class,
-                                               css_rewriter_class)
+    def __init__(self, *args, **kwargs):
+        super(LXMLHTMLRewriter, self).__init__(*args, **kwargs)
 
         self.target = RewriterTarget(self)
         self.parser = lxml.etree.HTMLParser(remove_pis=False,
diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index c2d17047..ae0ef70d 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -16,10 +16,11 @@ from pywb.utils.bufferedreaders import ChunkedDataReader
 
 #=================================================================
 class RewriteContent:
-    def __init__(self, ds_rules_file=None):
+    def __init__(self, ds_rules_file=None, defmod=''):
         self.ruleset = RuleSet(RewriteRules, 'rewrite',
                                default_rule_config={},
                                ds_rules_file=ds_rules_file)
+        self.defmod = defmod
 
     def sanitize_content(self, status_headers, stream):
         # remove transfer encoding chunked and wrap in a dechunking stream
@@ -111,7 +112,8 @@ class RewriteContent:
             rewriter = rewriter_class(urlrewriter,
                                       js_rewriter_class=rule.rewriters['js'],
                                       css_rewriter_class=rule.rewriters['css'],
-                                      head_insert=head_insert_str)
+                                      head_insert=head_insert_str,
+                                      defmod=self.defmod)
 
         else:
         # apply one of (js, css, xml) rewriters
diff --git a/pywb/rewrite/wburl.py b/pywb/rewrite/wburl.py
index 67bab4fb..982743ae 100644
--- a/pywb/rewrite/wburl.py
+++ b/pywb/rewrite/wburl.py
@@ -194,6 +194,21 @@ class WbUrl(BaseWbUrl):
             else:
                 return url
 
+    @property
+    def is_mainpage(self):
+        return (not self.mod or
+                self.mod == 'mp_')
+
+    @property
+    def is_embed(self):
+        return (self.mod and
+                self.mod != 'id_' and
+                self.mod != 'mp_')
+
+    @property
+    def is_identity(self):
+        return (self.mod == 'id_')
+
     def __str__(self):
         return self.to_str()
 
diff --git a/pywb/ui/frame_insert.html b/pywb/ui/frame_insert.html
index fd772251..71ddbd31 100644
--- a/pywb/ui/frame_insert.html
+++ b/pywb/ui/frame_insert.html
@@ -15,9 +15,9 @@ window.addEventListener("message", update_url, false);
 
 function push_state(url) {
     state = {}
-    state.inner_url = wbinfo.prefix + url;
-    state.outer_url = wbinfo.prefix + "fr_/" + url;
-
+    state.outer_url = wbinfo.prefix + url;
+    state.inner_url = wbinfo.prefix + "mp_/" + url;
+    
     if (url == wbinfo.capture_url) {
         return;
     }
@@ -30,6 +30,7 @@ function pop_state(url) {
 }
 
 function update_url(event) {
+    console.log(event);
     if (event.source == window.frames[0]) {
         push_state(event.data);
     }
diff --git a/pywb/ui/head_insert.html b/pywb/ui/head_insert.html
index 19c14fa0..9b6f3de7 100644
--- a/pywb/ui/head_insert.html
+++ b/pywb/ui/head_insert.html
@@ -11,7 +11,7 @@
 <script>
   wbinfo = {}
   wbinfo.capture_str = "{{ cdx.timestamp | format_ts }}";
-  wbinfo.is_embed = {{"true" if wbrequest.is_embed else "false"}};
+  wbinfo.is_embed = {{"true" if wbrequest.wb_url.is_embed else "false"}};
 </script>
 <script src='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.js'> </script>
 <link rel='stylesheet' href='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.css'/>
diff --git a/pywb/webapp/pywb_init.py b/pywb/webapp/pywb_init.py
index 337c48c6..cb0edee4 100644
--- a/pywb/webapp/pywb_init.py
+++ b/pywb/webapp/pywb_init.py
@@ -11,7 +11,9 @@ from pywb.warc.resolvingloader import ResolvingLoader
 from pywb.rewrite.rewrite_content import RewriteContent
 from pywb.rewrite.rewriterules import use_lxml_parser
 
-from views import load_template_file, load_query_template, add_env_globals
+from views import J2TemplateView, add_env_globals
+from views import J2HtmlCapturesView, HeadInsertView
+
 from replay_views import ReplayView
 
 from query_handler import QueryHandler
@@ -78,8 +80,9 @@ def create_wb_handler(query_handler, config,
     if template_globals:
         add_env_globals(template_globals)
 
-    head_insert_view = load_template_file(config.get('head_insert_html'),
-                                          'Head Insert')
+    head_insert_view = (HeadInsertView.
+                        create_template(config.get('head_insert_html'),
+                                       'Head Insert'))
 
     replayer = ReplayView(
         content_loader=resolving_loader,
@@ -97,8 +100,9 @@ def create_wb_handler(query_handler, config,
         reporter=config.get('reporter')
     )
 
-    search_view = load_template_file(config.get('search_html'),
-                                     'Search Page')
+    search_view = (J2TemplateView.
+                   create_template(config.get('search_html'),
+                                   'Search Page'))
 
     wb_handler_class = config.get('wb_handler_class', WBHandler)
 
@@ -120,8 +124,9 @@ def init_collection(value, config):
 
     ds_rules_file = route_config.get('domain_specific_rules', None)
 
-    html_view = load_query_template(config.get('query_html'),
-                                    'Captures Page')
+    html_view = (J2HtmlCapturesView.
+                 create_template(config.get('query_html'),
+                                 'Captures Page'))
 
     query_handler = QueryHandler.init_from_config(route_config,
                                                   ds_rules_file,
@@ -247,9 +252,9 @@ def create_wb_router(passed_config={}):
 
         abs_path=config.get('absolute_paths', True),
 
-        home_view=load_template_file(config.get('home_html'),
-                                     'Home Page'),
+        home_view=J2TemplateView.create_template(config.get('home_html'),
+                                                 'Home Page'),
 
-        error_view=load_template_file(config.get('error_html'),
-                                      'Error Page')
+        error_view=J2TemplateView.create_template(config.get('error_html'),
+                                                 'Error Page')
     )
diff --git a/pywb/webapp/replay_views.py b/pywb/webapp/replay_views.py
index 31fe4b57..c45b5983 100644
--- a/pywb/webapp/replay_views.py
+++ b/pywb/webapp/replay_views.py
@@ -113,7 +113,10 @@ class ReplayView(object):
 
         urlrewriter = wbrequest.urlrewriter
 
-        head_insert_func = self.get_head_insert_func(wbrequest, cdx)
+        head_insert_func = None
+        if self.head_insert_view:
+            head_insert_func = self.head_insert_view.create_insert_func(wbrequest,
+                                                                        cdx)
 
         result = (self.content_rewriter.
                   rewrite_content(urlrewriter,
@@ -121,7 +124,7 @@ class ReplayView(object):
                                   stream=stream,
                                   head_insert_func=head_insert_func,
                                   urlkey=cdx['urlkey'],
-                                  sanitize_only=wbrequest.is_identity))
+                                  sanitize_only=wbrequest.wb_url.is_identity))
 
         (status_headers, response_iter, is_rewritten) = result
 
@@ -141,18 +144,6 @@ class ReplayView(object):
 
         return response
 
-    def get_head_insert_func(self, wbrequest, cdx):
-        # no head insert specified
-        if not self.head_insert_view:
-            return None
-
-        def make_head_insert(rule):
-            return (self.head_insert_view.
-                    render_to_string(wbrequest=wbrequest,
-                                     cdx=cdx,
-                                     rule=rule))
-        return make_head_insert
-
     # Buffer rewrite iterator and return a response from a string
     def buffered_response(self, status_headers, iterator):
         out = BytesIO()
@@ -207,7 +198,7 @@ class ReplayView(object):
 
         # skip all 304s
         if (status_headers.statusline.startswith('304') and
-            not wbrequest.is_identity):
+            not wbrequest.wb_url.is_identity):
 
             raise CaptureException('Skipping 304 Modified: ' + str(cdx))
 
diff --git a/pywb/webapp/rewrite_handler.py b/pywb/webapp/rewrite_handler.py
index 07f6644c..894aae39 100644
--- a/pywb/webapp/rewrite_handler.py
+++ b/pywb/webapp/rewrite_handler.py
@@ -13,22 +13,24 @@ from pywb.utils.statusandheaders import StatusAndHeaders
 from pywb.rewrite.rewriterules import use_lxml_parser
 
 import datetime
-#import urllib2
-import urlparse
-import httplib
 import requests
 
 from io import BytesIO, BufferedReader
 
-from views import load_template_file
+from views import J2TemplateView, HeadInsertView
 
 
 class RewriteHandler(WbUrlHandler):  # pragma: no cover
     def __init__(self, head_insert_view=None):
         #use_lxml_parser()
-        self.rewriter = RewriteContent()
-        self.head_insert_view = load_template_file('ui/head_insert.html', 'Head Insert')
-        self.frame_insert_view = load_template_file('ui/frame_insert.html', 'Frame Insert')
+        self.rewriter = RewriteContent(defmod='mp_')
+        self.head_insert_view = (HeadInsertView.
+                                 create_template('ui/head_insert.html',
+                                                 'Head Insert'))
+
+        self.frame_insert_view = (J2TemplateView.
+                                  create_template('ui/frame_insert.html',
+                                                  'Frame Insert'))
 
     def proxy_request(self, url, env):
 
@@ -76,36 +78,12 @@ class RewriteHandler(WbUrlHandler):  # pragma: no cover
                                stream=True)
         return req
 
-    def do_request(self, method, url, data, req_headers):
-        splits = urlparse.urlsplit(url)
-
-        hostport = splits.netloc.split(':', 1)
-        host = hostport[0]
-
-        if len(hostport) == 2:
-            port = hostport[1]
-        else:
-            port = None
-
-        path = splits.path
-
-        if splits.query:
-            path += '?' + splits.query
-
-        if splits.scheme == 'https':
-            conn = httplib.HTTPSConnection(host, port)
-        else:
-            conn = httplib.HTTPConnection(host, port)
-
-        conn.request(method.upper(), path, data, req_headers)
-        return conn.getresponse()
-
     def __call__(self, wbrequest):
 
         url = wbrequest.wb_url.url
 
-        if wbrequest.wb_url.mod == 'fr_':
-            embed_url = wbrequest.wb_url.to_str(mod='')
+        if not wbrequest.wb_url.mod:
+            embed_url = wbrequest.wb_url.to_str(mod='mp_')
             timestamp = datetime_to_timestamp(datetime.datetime.utcnow())
 
             return self.frame_insert_view.render_response(embed_url=embed_url,
@@ -133,7 +111,9 @@ class RewriteHandler(WbUrlHandler):  # pragma: no cover
               }
 
 
-        head_insert_func = self.get_head_insert_func(wbrequest, cdx)
+        #head_insert_func = self.get_head_insert_func(wbrequest, cdx)
+        head_insert_func = self.head_insert_view.create_insert_func(wbrequest,
+                                                                    cdx)
 
         result = self.rewriter.rewrite_content(wbrequest.urlrewriter,
                                                status_headers,
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index c452d0e0..9aedc230 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -101,6 +101,14 @@ class J2TemplateView:
                                         status=status,
                                         content_type=content_type)
 
+    @staticmethod
+    def create_template(filename, desc='', view_class=None):
+        if not view_class:
+            view_class = J2TemplateView
+
+        logging.debug('Adding {0}: {1}'.format(desc, filename))
+        return view_class(filename)
+
 
 #=================================================================
 def add_env_globals(glb):
@@ -108,17 +116,18 @@ def add_env_globals(glb):
 
 
 #=================================================================
-def load_template_file(file, desc=None, view_class=J2TemplateView):
-    if file:
-        logging.debug('Adding {0}: {1}'.format(desc if desc else name, file))
-        file = view_class(file)
+class HeadInsertView(J2TemplateView):
+    def create_insert_func(self, wbrequest, cdx):
+        def make_head_insert(rule):
+            return (self.render_to_string(wbrequest=wbrequest,
+                                          cdx=cdx,
+                                          rule=rule))
+        return make_head_insert
 
-    return file
-
-
-#=================================================================
-def load_query_template(file, desc=None):
-    return load_template_file(file, desc, J2HtmlCapturesView)
+    @staticmethod
+    def create_template(filename, desc=''):
+        return J2TemplateView.create_template(filename, desc,
+                                              HeadInsertView)
 
 
 #=================================================================
@@ -132,6 +141,11 @@ class J2HtmlCapturesView(J2TemplateView):
                                     type=wbrequest.wb_url.type,
                                     prefix=wbrequest.wb_prefix)
 
+    @staticmethod
+    def create_template(filename, desc=''):
+        return J2TemplateView.create_template(filename, desc,
+                                              J2HtmlCapturesView)
+
 
 #=================================================================
 class MementoTimemapView(object):

From b4f30a770f1fbeee9472d55db43ed70ba310214e Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 9 Apr 2014 10:06:09 -0700
Subject: [PATCH 12/55] ChunkDataReader: if determined to be non-chunked, read
 full buffer unchunked

---
 pywb/utils/bufferedreaders.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/pywb/utils/bufferedreaders.py b/pywb/utils/bufferedreaders.py
index aece175f..bfcffa40 100644
--- a/pywb/utils/bufferedreaders.py
+++ b/pywb/utils/bufferedreaders.py
@@ -207,6 +207,9 @@ class ChunkedDataReader(DecompressingBufferedReader):
                 self._process_read(length_header + self._data)
                 self.not_chunked = True
 
+                # parse as block as non-chunked
+                return super(ChunkedDataReader, self)._fillbuff(block_size)
+
     def _try_decode(self, length_header):
         # decode length header
         try:

From 11202c462fe91f1586dae30de6d28567fc9938b0 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 9 Apr 2014 10:57:43 -0700
Subject: [PATCH 13/55] support both frames and non-frames mode add automatic
 framing when in framed mode

---
 pywb/static/wb.css             | 35 +++++++++++++++-------------------
 pywb/static/wb.js              | 27 +++++++++++++++++---------
 pywb/static/wombat.js          |  2 +-
 pywb/ui/frame_insert.html      |  2 +-
 pywb/ui/head_insert.html       |  3 +++
 pywb/webapp/pywb_init.py       |  5 +++++
 pywb/webapp/rewrite_handler.py | 19 ------------------
 pywb/webapp/views.py           |  4 ++++
 8 files changed, 47 insertions(+), 50 deletions(-)

diff --git a/pywb/static/wb.css b/pywb/static/wb.css
index 3a36f54a..90c62927 100644
--- a/pywb/static/wb.css
+++ b/pywb/static/wb.css
@@ -1,16 +1,12 @@
 
-#_wayback_banner
+#_wb_plain_banner, #_wb_frame_top_banner
 { 
     display: block !important;
     top: 0px !important;
     left: 0px !important;
     font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif !important;
-    position: fixed !important;
- /*   padding: 4px !important; */
-    height: 40px !important;
     width: 100% !important;
     font-size: 24px !important;
-/*    border: 1px solid !important; */
     background-color: lightYellow !important; 
     color: black !important;
     text-align: center !important;
@@ -18,6 +14,20 @@
     line-height: normal !important;
 }
 
+#_wb_plain_banner
+{
+    position: absolute !important;
+    padding: 4px !important;
+    border: 1px solid !important;
+}
+
+#_wb_frame_top_banner
+{
+    position: fixed !important;
+    border: 0px;
+    height: 40px !important;
+}
+
 .wb_iframe_div
 {
     width: 100%;
@@ -35,18 +45,3 @@
     height: 100%;
     border: 4px solid firebrick;
 }
-
-.wb_iframe_all
-{
-    width: 100%;
-    height: 100%;
-    border: none;
-    background-color: firebrick;
-    padding: 44px 4px 4px 4px;
-    box-sizing: border-box;
-    -moz-box-sizing: border-box;
-    -webkit-box-sizing: border-box;
-}
-
-
-
diff --git a/pywb/static/wb.js b/pywb/static/wb.js
index 41343f81..e10a522e 100644
--- a/pywb/static/wb.js
+++ b/pywb/static/wb.js
@@ -18,9 +18,8 @@ This file is part of pywb.
  */
 
 function init_banner() {
-    var BANNER_ID = "_wayback_banner";
-
-    var banner = document.getElementById(BANNER_ID);
+    var PLAIN_BANNER_ID = "_wb_plain_banner";
+    var FRAME_BANNER_ID = "_wb_frame_top_banner";
 
     if (wbinfo.is_embed) {
         return;
@@ -30,9 +29,17 @@ function init_banner() {
         return;
     }
 
+    if (wbinfo.is_frame) {
+        bid = FRAME_BANNER_ID;
+    } else {
+        bid = PLAIN_BANNER_ID;
+    }
+
+    var banner = document.getElementById(bid);
+    
     if (!banner) {
         banner = document.createElement("wb_div");
-        banner.setAttribute("id", BANNER_ID);
+        banner.setAttribute("id", bid);
         banner.setAttribute("lang", "en");
 
         text = "This is an archived page ";
@@ -90,9 +97,11 @@ var detect_on_init = function() {
 
 add_event("readystatechange", detect_on_init, document);
 
-/*
-if ((window.self == window.top) && !wbinfo.is_embed && window.location.href.indexOf("/rewrite/fr_/") == -1) {
-    new_loc = window.location.href.replace("/rewrite/", "/rewrite/fr_/");
-    window.location.replace(new_loc);
+
+if (wbinfo.is_frame_mp && wbinfo.canon_url &&
+   (window.self == window.top) && 
+   window.location.href != wbinfo.canon_url) {
+    
+    console.log('frame');
+    window.location.replace(wbinfo.canon_url);
 }
-*/
diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index 457d7d5a..873d0c1a 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -69,7 +69,7 @@ WB_wombat_init = (function() {
     }
 
     //============================================
-    var rewrite_url = rewrite_url_debug;
+    var rewrite_url = rewrite_url_;
 
     function rewrite_url_debug(url) {
         rewritten = rewrite_url_(url);
diff --git a/pywb/ui/frame_insert.html b/pywb/ui/frame_insert.html
index 71ddbd31..3ba9a406 100644
--- a/pywb/ui/frame_insert.html
+++ b/pywb/ui/frame_insert.html
@@ -7,6 +7,7 @@
   wbinfo.is_embed = false;
   wbinfo.prefix = "{{ wbrequest.wb_prefix }}";
   wbinfo.capture_url = "{{ url }}";
+  wbinfo.is_frame = true;
 </script>
 <script src='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.js'> </script>
 <script>
@@ -30,7 +31,6 @@ function pop_state(url) {
 }
 
 function update_url(event) {
-    console.log(event);
     if (event.source == window.frames[0]) {
         push_state(event.data);
     }
diff --git a/pywb/ui/head_insert.html b/pywb/ui/head_insert.html
index 9b6f3de7..bd5beed9 100644
--- a/pywb/ui/head_insert.html
+++ b/pywb/ui/head_insert.html
@@ -11,7 +11,10 @@
 <script>
   wbinfo = {}
   wbinfo.capture_str = "{{ cdx.timestamp | format_ts }}";
+  wbinfo.prefix = "{{ wbrequest.wb_prefix }}";
   wbinfo.is_embed = {{"true" if wbrequest.wb_url.is_embed else "false"}};
+  wbinfo.is_frame_mp = {{"true" if wbrequest.wb_url.mod == 'mp_' else "false"}}
+  wbinfo.canon_url = "{{ canon_url }}";
 </script>
 <script src='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.js'> </script>
 <link rel='stylesheet' href='{{ wbrequest.host_prefix }}/{{ static_path }}/wb.css'/>
diff --git a/pywb/webapp/pywb_init.py b/pywb/webapp/pywb_init.py
index cb0edee4..bc942966 100644
--- a/pywb/webapp/pywb_init.py
+++ b/pywb/webapp/pywb_init.py
@@ -4,6 +4,7 @@ from pywb.framework.archivalrouter import ArchivalRouter, Route
 from pywb.framework.proxy import ProxyArchivalRouter
 from pywb.framework.wbrequestresponse import WbRequest
 from pywb.framework.memento import MementoRequest
+from pywb.framework.basehandlers import BaseHandler
 
 from pywb.warc.recordloader import ArcWarcRecordLoader
 from pywb.warc.resolvingloader import ResolvingLoader
@@ -200,6 +201,10 @@ def create_wb_router(passed_config={}):
 
     for name, value in collections.iteritems():
 
+        if isinstance(value, BaseHandler):
+            routes.append(Route(name, value))
+            continue
+
         result = init_collection(value, config)
         route_config, query_handler, ds_rules_file = result
 
diff --git a/pywb/webapp/rewrite_handler.py b/pywb/webapp/rewrite_handler.py
index 894aae39..ce672516 100644
--- a/pywb/webapp/rewrite_handler.py
+++ b/pywb/webapp/rewrite_handler.py
@@ -55,13 +55,6 @@ class RewriteHandler(WbUrlHandler):  # pragma: no cover
                                         req_headers)
         code = response.status_code
 
-        # remove transfer-encoding as raw stream
-        # is already de-chunked
-        try:
-            del response.headers['transfer-encoding']
-        except KeyError:
-            pass
-
         headers = response.headers.items()
         stream = response.raw
 
@@ -126,18 +119,6 @@ class RewriteHandler(WbUrlHandler):  # pragma: no cover
         return WbResponse(status_headers, gen)
 
 
-    def get_head_insert_func(self, wbrequest, cdx):
-        # no head insert specified
-        if not self.head_insert_view:
-            return None
-
-        def make_head_insert(rule):
-            return (self.head_insert_view.
-                    render_to_string(wbrequest=wbrequest,
-                                     cdx=cdx,
-                                     rule=rule))
-        return make_head_insert
-
 def create_rewrite_app(): # pragma: no cover
     routes = [Route('rewrite', RewriteHandler()),
               Route('static/default', StaticHandler('pywb/static/'))
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 9aedc230..84e21624 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -118,9 +118,13 @@ def add_env_globals(glb):
 #=================================================================
 class HeadInsertView(J2TemplateView):
     def create_insert_func(self, wbrequest, cdx):
+
+        canon_url = wbrequest.wb_prefix + wbrequest.wb_url.to_str(mod='')
+
         def make_head_insert(rule):
             return (self.render_to_string(wbrequest=wbrequest,
                                           cdx=cdx,
+                                          canon_url=canon_url,
                                           rule=rule))
         return make_head_insert
 

From bfc2e6379310b75782365f91d51681339c7c5978 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 9 Apr 2014 15:46:03 -0700
Subject: [PATCH 14/55] live rewriter: integrate handler with rewrite_live.py
 module, clean up css, add unit and integration tests clean up cli server now
 known as 'live-rewrite-server', which performs live rewrite using iframe
 paradigm

---
 ...rewrite_live.py => live_rewrite_server.py} |   6 +-
 pywb/rewrite/html_rewriter.py                 |   1 -
 pywb/rewrite/rewrite_content.py               |   4 +-
 pywb/rewrite/rewrite_live.py                  | 141 +++++++++++++-----
 pywb/rewrite/rewriterules.py                  |   2 +
 pywb/rewrite/test/test_rewrite_live.py        |  42 ++++--
 pywb/static/wb.css                            |   4 +-
 pywb/utils/statusandheaders.py                |  10 +-
 pywb/webapp/live_rewrite_handler.py           |  65 ++++++++
 pywb/webapp/replay_views.py                   |   7 +-
 pywb/webapp/rewrite_handler.py                | 126 ----------------
 pywb/webapp/views.py                          |   4 +-
 setup.py                                      |   3 +-
 tests/test_live_rewriter.py                   |  25 ++++
 14 files changed, 245 insertions(+), 195 deletions(-)
 rename pywb/apps/{rewrite_live.py => live_rewrite_server.py} (58%)
 create mode 100644 pywb/webapp/live_rewrite_handler.py
 delete mode 100644 pywb/webapp/rewrite_handler.py
 create mode 100644 tests/test_live_rewriter.py

diff --git a/pywb/apps/rewrite_live.py b/pywb/apps/live_rewrite_server.py
similarity index 58%
rename from pywb/apps/rewrite_live.py
rename to pywb/apps/live_rewrite_server.py
index e3b8f45b..9b29e42b 100644
--- a/pywb/apps/rewrite_live.py
+++ b/pywb/apps/live_rewrite_server.py
@@ -1,16 +1,16 @@
 from pywb.framework.wsgi_wrappers import init_app, start_wsgi_server
 
-from pywb.webapp.rewrite_handler import create_rewrite_app
+from pywb.webapp.live_rewrite_handler import create_live_rewriter_app
 
 #=================================================================
 # init cdx server app
 #=================================================================
 
-application = init_app(create_rewrite_app, load_yaml=False)
+application = init_app(create_live_rewriter_app, load_yaml=False)
 
 
 def main():  # pragma: no cover
-    start_wsgi_server(application, 'Rewrite App', default_port=8090)
+    start_wsgi_server(application, 'Live Rewriter App', default_port=8090)
 
 if __name__ == "__main__":
     main()
diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index 99cab8d0..36601e98 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -53,7 +53,6 @@ class HTMLRewriterMixin(object):
 
         return rewrite_tags
 
-
     STATE_TAGS = ['script', 'style']
 
     # tags allowed in the <head> of an html document
diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index ae0ef70d..61f2641c 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -54,7 +54,7 @@ class RewriteContent:
 
     def rewrite_content(self, urlrewriter, headers, stream,
                         head_insert_func=None, urlkey='',
-                        sanitize_only=False):
+                        sanitize_only=False, cdx=None):
 
         if sanitize_only:
             status_headers, stream = self.sanitize_content(headers, stream)
@@ -107,7 +107,7 @@ class RewriteContent:
             head_insert_str = ''
 
             if head_insert_func:
-                head_insert_str = head_insert_func(rule)
+                head_insert_str = head_insert_func(rule, cdx)
 
             rewriter = rewriter_class(urlrewriter,
                                       js_rewriter_class=rule.rewriters['js'],
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index ebedd73d..7bc1f8db 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -2,9 +2,7 @@
 Fetch a url from live web and apply rewriting rules
 """
 
-import urllib2
-import os
-import sys
+import requests
 import datetime
 import mimetypes
 
@@ -18,61 +16,124 @@ from pywb.rewrite.rewrite_content import RewriteContent
 
 
 #=================================================================
-def get_status_and_stream(url):
-    resp = urllib2.urlopen(url)
+class LiveRewriter(object):
+    PROXY_HEADER_LIST = [('HTTP_USER_AGENT', 'User-Agent')]
 
-    headers = []
-    for name, value in resp.info().dict.iteritems():
-        headers.append((name, value))
+    def __init__(self, defmod=''):
+        self.rewriter = RewriteContent(defmod=defmod)
 
-    status_headers = StatusAndHeaders('200 OK', headers)
-    stream = resp
+    def fetch_local_file(self, uri):
+        fh = open(uri)
 
-    return (status_headers, stream)
+        content_type, _ = mimetypes.guess_type(uri)
 
+        # create fake headers for local file
+        status_headers = StatusAndHeaders('200 OK',
+                                          [('Content-Type', content_type)])
+        stream = fh
 
-#=================================================================
-def get_local_file(uri):
-    fh = open(uri)
+        return (status_headers, stream)
 
-    content_type, _ = mimetypes.guess_type(uri)
+    def translate_headers(self, env, header_list=None):
+        headers = {}
 
-    # create fake headers for local file
-    status_headers = StatusAndHeaders('200 OK',
-                                      [('Content-Type', content_type)])
-    stream = fh
+        if not header_list:
+            header_list = self.PROXY_HEADER_LIST
 
-    return (status_headers, stream)
+        for env_name, req_name in header_list:
+            value = env.get(env_name)
+            if value is not None:
+                headers[req_name] = value
 
+        return headers
 
-#=================================================================
-def get_rewritten(url, urlrewriter, urlkey=None, head_insert_func=None):
-    if is_http(url):
-        (status_headers, stream) = get_status_and_stream(url)
-    else:
-        (status_headers, stream) = get_local_file(url)
+    def fetch_http(self, url,
+                   env=None,
+                   req_headers={},
+                   follow_redirects=False):
 
-    # explicit urlkey may be passed in (say for testing)
-    if not urlkey:
-        urlkey = canonicalize(url)
+        method = 'GET'
+        data = None
 
-    rewriter = RewriteContent()
+        if env is not None:
+            method = env['REQUEST_METHOD'].upper()
+            input_ = env['wsgi.input']
 
-    result = rewriter.rewrite_content(urlrewriter,
-                                      status_headers,
-                                      stream,
-                                      head_insert_func=head_insert_func,
-                                      urlkey=urlkey)
+            req_headers.update(self.translate_headers(env))
 
-    status_headers, gen, is_rewritten = result
+            if method in ('POST', 'PUT'):
+                data = input_
 
-    buff = ''.join(gen)
+        response = requests.request(method=method,
+                                    url=url,
+                                    data=data,
+                                    headers=req_headers,
+                                    allow_redirects=follow_redirects,
+                                    stream=True)
 
-    return (status_headers, buff)
+        statusline = str(response.status_code) + ' ' + response.reason
+
+        headers = response.headers.items()
+        stream = response.raw
+
+        status_headers = StatusAndHeaders(statusline, headers)
+
+        return (status_headers, stream)
+
+    def fetch_request(self, url, urlrewriter,
+                      head_insert_func=None, urlkey=None,
+                      env=None, req_headers={}, follow_redirects=False):
+
+        ts_err = url.split('///')
+
+        if len(ts_err) > 1:
+            url = 'http://' + ts_err[1]
+
+        if url.startswith('//'):
+            url = 'http:' + url
+
+        if is_http(url):
+            (status_headers, stream) = self.fetch_http(url, env, req_headers,
+                                                       follow_redirects)
+        else:
+            (status_headers, stream) = self.fetch_local_file(url)
+
+        # explicit urlkey may be passed in (say for testing)
+        if not urlkey:
+            urlkey = canonicalize(url)
+
+        cdx = {'urlkey': urlkey,
+               'timestamp': datetime_to_timestamp(datetime.datetime.utcnow()),
+               'original': url,
+               'statuscode': status_headers.get_statuscode(),
+               'mimetype': status_headers.get_header('Content-Type')
+              }
+
+        result = (self.rewriter.
+                  rewrite_content(urlrewriter,
+                                  status_headers,
+                                  stream,
+                                  head_insert_func=head_insert_func,
+                                  urlkey=urlkey,
+                                  cdx=cdx))
+
+        return result
+
+    def get_rewritten(self, *args, **kwargs):
+
+        result = self.fetch_request(*args, **kwargs)
+
+        status_headers, gen, is_rewritten = result
+
+        buff = ''.join(gen)
+
+        return (status_headers, buff)
 
 
 #=================================================================
 def main():  # pragma: no cover
+    import sys
+
     if len(sys.argv) < 2:
         msg = 'Usage: {0} url-to-fetch [wb-url-target] [extra-prefix]'
         print msg.format(sys.argv[0])
@@ -94,7 +155,9 @@ def main():  # pragma: no cover
 
     urlrewriter = UrlRewriter(wburl_str, prefix)
 
-    status_headers, buff = get_rewritten(url, urlrewriter)
+    liverewriter = LiveRewriter()
+
+    status_headers, buff = liverewriter.get_rewritten(url, urlrewriter)
 
     sys.stdout.write(buff)
     return 0
diff --git a/pywb/rewrite/rewriterules.py b/pywb/rewrite/rewriterules.py
index a7737248..f9eae0b9 100644
--- a/pywb/rewrite/rewriterules.py
+++ b/pywb/rewrite/rewriterules.py
@@ -30,9 +30,11 @@ def use_lxml_parser():
     return _is_lxml
 
 
+#=================================================================
 def is_lxml():
     return _is_lxml
 
+
 #=================================================================
 class RewriteRules(BaseRule):
     def __init__(self, url_prefix, config={}):
diff --git a/pywb/rewrite/test/test_rewrite_live.py b/pywb/rewrite/test/test_rewrite_live.py
index 13a941ea..1e8fa25e 100644
--- a/pywb/rewrite/test/test_rewrite_live.py
+++ b/pywb/rewrite/test/test_rewrite_live.py
@@ -1,4 +1,4 @@
-from pywb.rewrite.rewrite_live import get_rewritten
+from pywb.rewrite.rewrite_live import LiveRewriter
 from pywb.rewrite.url_rewriter import UrlRewriter
 
 from pywb import get_test_dir
@@ -8,7 +8,7 @@ from pywb import get_test_dir
 
 urlrewriter = UrlRewriter('20131226101010/http://example.com/some/path/index.html', '/pywb/')
 
-def head_insert_func(rule):
+def head_insert_func(rule, cdx):
     if rule.js_rewrite_location == True:
         return '<script src="/static/default/wombat.js"> </script>'
     else:
@@ -18,8 +18,8 @@ def head_insert_func(rule):
 def test_local_1():
     status_headers, buff = get_rewritten(get_test_dir() + 'text_content/sample.html',
                                          urlrewriter,
-                                         'com,example,test)/',
-                                         head_insert_func)
+                                         head_insert_func,
+                                         'com,example,test)/')
 
     # wombat insert added
     assert '<head><script src="/static/default/wombat.js"> </script>' in buff
@@ -34,8 +34,8 @@ def test_local_1():
 def test_local_2_no_js_location_rewrite():
     status_headers, buff = get_rewritten(get_test_dir() + 'text_content/sample.html',
                                          urlrewriter,
-                                         'example,example,test)/nolocation_rewrite',
-                                         head_insert_func)
+                                         head_insert_func,
+                                         'example,example,test)/nolocation_rewrite')
 
     # no wombat insert
     assert '<head><script src="/static/default/wombat.js"> </script>' not in buff
@@ -46,28 +46,40 @@ def test_local_2_no_js_location_rewrite():
     # still link rewrite
     assert '"/pywb/20131226101010/http://example.com/some/path/another.html"' in buff
 
+
 def test_example_1():
-    status_headers, buff = get_rewritten('http://example.com/', urlrewriter)
-
-    # verify header rewriting
-    assert (('X-Archive-Orig-connection', 'close') in status_headers.headers), status_headers
-
-
-def test_example_2():
-    status_headers, buff = get_rewritten('http://example.com/', urlrewriter)
+    status_headers, buff = get_rewritten('http://example.com/', urlrewriter, req_headers={'Connection': 'close'})
 
     # verify header rewriting
     assert (('X-Archive-Orig-connection', 'close') in status_headers.headers), status_headers
 
     assert '/pywb/20131226101010/http://www.iana.org/domains/example' in buff, buff
 
+def test_example_2_redirect():
+    status_headers, buff = get_rewritten('http://facebook.com/', urlrewriter)
 
+    # redirect, no content
+    assert status_headers.get_statuscode() == '301'
+    assert len(buff) == 0
+
+
+def test_example_3_rel():
+    status_headers, buff = get_rewritten('//example.com/', urlrewriter)
+    assert status_headers.get_statuscode() == '200'
+
+
+def test_example_4_rewrite_err():
+    # may occur in case of rewrite mismatch, the /// gets stripped off
+    status_headers, buff = get_rewritten('http://localhost:8080///example.com/', urlrewriter)
+    assert status_headers.get_statuscode() == '200'
 
 def test_example_domain_specific_3():
     urlrewriter2 = UrlRewriter('20131226101010/http://example.com/some/path/index.html', '/pywb/')
-    status_headers, buff = get_rewritten('http://facebook.com/digitalpreservation', urlrewriter2)
+    status_headers, buff = get_rewritten('http://facebook.com/digitalpreservation', urlrewriter2, follow_redirects=True)
 
     # comment out bootloader
     assert '/* Bootloader.configurePage' in buff
 
 
+def get_rewritten(*args, **kwargs):
+    return LiveRewriter().get_rewritten(*args, **kwargs)
diff --git a/pywb/static/wb.css b/pywb/static/wb.css
index 90c62927..880f0890 100644
--- a/pywb/static/wb.css
+++ b/pywb/static/wb.css
@@ -32,7 +32,7 @@
 {
     width: 100%;
     height: 100%;
-    padding: 40px 8px 8px 0px;
+    padding: 40px 4px 4px 0px;
     border: none;
     box-sizing: border-box;
     -moz-box-sizing: border-box;
@@ -43,5 +43,5 @@
 {
     width: 100%;
     height: 100%;
-    border: 4px solid firebrick;
+    border: 2px solid tan;
 }
diff --git a/pywb/utils/statusandheaders.py b/pywb/utils/statusandheaders.py
index 85805cb2..ae3fc261 100644
--- a/pywb/utils/statusandheaders.py
+++ b/pywb/utils/statusandheaders.py
@@ -57,12 +57,20 @@ class StatusAndHeaders(object):
 
         return False
 
+    def get_statuscode(self):
+        """
+        Return the statuscode part of the status response line
+        (Assumes no protocol in the statusline)
+        """
+        code = self.statusline.split(' ', 1)[0]
+        return code
+
     def validate_statusline(self, valid_statusline):
         """
         Check that the statusline is valid, eg. starts with a numeric
         code. If not, replace with passed in valid_statusline
         """
-        code = self.statusline.split(' ', 1)[0]
+        code = self.get_statuscode()
         try:
             code = int(code)
             assert(code > 0)
diff --git a/pywb/webapp/live_rewrite_handler.py b/pywb/webapp/live_rewrite_handler.py
new file mode 100644
index 00000000..d554c010
--- /dev/null
+++ b/pywb/webapp/live_rewrite_handler.py
@@ -0,0 +1,65 @@
+from pywb.framework.basehandlers import WbUrlHandler
+from pywb.framework.wbrequestresponse import WbResponse
+from pywb.framework.archivalrouter import ArchivalRouter, Route
+
+from pywb.rewrite.rewrite_live import LiveRewriter
+
+from handlers import StaticHandler
+
+from pywb.utils.canonicalize import canonicalize
+from pywb.utils.timeutils import datetime_to_timestamp
+from pywb.utils.statusandheaders import StatusAndHeaders
+
+from pywb.rewrite.rewriterules import use_lxml_parser
+
+import datetime
+
+from views import J2TemplateView, HeadInsertView
+
+
+class RewriteHandler(WbUrlHandler):
+    def __init__(self, config={}):
+        #use_lxml_parser()
+        self.rewriter = LiveRewriter(defmod='mp_')
+
+        head_insert = config.get('head_insert_html',
+                                 'ui/head_insert.html')
+
+        frame_insert = config.get('frame_insert_html',
+                                  'ui/frame_insert.html')
+
+        view = HeadInsertView.create_template(head_insert, 'Head Insert')
+        self.head_insert_view = view
+
+        view = J2TemplateView.create_template(frame_insert, 'Frame Insert')
+        self.frame_insert_view = view
+
+    def __call__(self, wbrequest):
+
+        url = wbrequest.wb_url.url
+
+        if not wbrequest.wb_url.mod:
+            embed_url = wbrequest.wb_url.to_str(mod='mp_')
+            timestamp = datetime_to_timestamp(datetime.datetime.utcnow())
+
+            return self.frame_insert_view.render_response(embed_url=embed_url,
+                                                          wbrequest=wbrequest,
+                                                          timestamp=timestamp,
+                                                          url=url)
+
+        head_insert_func = self.head_insert_view.create_insert_func(wbrequest)
+
+        result = self.rewriter.fetch_request(url, wbrequest.urlrewriter,
+                                             head_insert_func=head_insert_func,
+                                             env=wbrequest.env)
+
+        status_headers, gen, is_rewritten = result
+
+        return WbResponse(status_headers, gen)
+
+
+def create_live_rewriter_app():
+    routes = [Route('rewrite', RewriteHandler()),
+              Route('static/default', StaticHandler('pywb/static/'))
+             ]
+    return ArchivalRouter(routes, hostpaths=['http://localhost:8080'])
diff --git a/pywb/webapp/replay_views.py b/pywb/webapp/replay_views.py
index c45b5983..7c0f1d7f 100644
--- a/pywb/webapp/replay_views.py
+++ b/pywb/webapp/replay_views.py
@@ -115,8 +115,8 @@ class ReplayView(object):
 
         head_insert_func = None
         if self.head_insert_view:
-            head_insert_func = self.head_insert_view.create_insert_func(wbrequest,
-                                                                        cdx)
+            head_insert_func = (self.head_insert_view.
+                                create_insert_func(wbrequest))
 
         result = (self.content_rewriter.
                   rewrite_content(urlrewriter,
@@ -124,7 +124,8 @@ class ReplayView(object):
                                   stream=stream,
                                   head_insert_func=head_insert_func,
                                   urlkey=cdx['urlkey'],
-                                  sanitize_only=wbrequest.wb_url.is_identity))
+                                  sanitize_only=wbrequest.wb_url.is_identity,
+                                  cdx=cdx))
 
         (status_headers, response_iter, is_rewritten) = result
 
diff --git a/pywb/webapp/rewrite_handler.py b/pywb/webapp/rewrite_handler.py
deleted file mode 100644
index ce672516..00000000
--- a/pywb/webapp/rewrite_handler.py
+++ /dev/null
@@ -1,126 +0,0 @@
-from pywb.framework.basehandlers import WbUrlHandler
-from pywb.framework.wbrequestresponse import WbResponse
-from pywb.framework.archivalrouter import ArchivalRouter, Route
-
-from pywb.rewrite.rewrite_content import RewriteContent
-
-from handlers import StaticHandler
-
-from pywb.utils.canonicalize import canonicalize
-from pywb.utils.timeutils import datetime_to_timestamp
-from pywb.utils.statusandheaders import StatusAndHeaders
-
-from pywb.rewrite.rewriterules import use_lxml_parser
-
-import datetime
-import requests
-
-from io import BytesIO, BufferedReader
-
-from views import J2TemplateView, HeadInsertView
-
-
-class RewriteHandler(WbUrlHandler):  # pragma: no cover
-    def __init__(self, head_insert_view=None):
-        #use_lxml_parser()
-        self.rewriter = RewriteContent(defmod='mp_')
-        self.head_insert_view = (HeadInsertView.
-                                 create_template('ui/head_insert.html',
-                                                 'Head Insert'))
-
-        self.frame_insert_view = (J2TemplateView.
-                                  create_template('ui/frame_insert.html',
-                                                  'Frame Insert'))
-
-    def proxy_request(self, url, env):
-
-        method = env['REQUEST_METHOD'].upper()
-        input_ = env['wsgi.input']
-
-        ua = env['HTTP_USER_AGENT']
-
-        req_headers = {'User-Agent': ua}
-
-        if url.startswith('//'):
-            url = 'http:' + url
-
-        if method in ('POST', 'PUT'):
-            data = input_
-        else:
-            data = None
-
-        response = self.do_http_request(method,
-                                        url,
-                                        data,
-                                        req_headers)
-        code = response.status_code
-
-        headers = response.headers.items()
-        stream = response.raw
-
-        status_headers = StatusAndHeaders(str(code), headers)
-
-        return (status_headers, stream)
-
-    def do_http_request(self, method, url, data, req_headers):
-        req = requests.request(method=method,
-                               url=url,
-                               data=data,
-                               headers=req_headers,
-                               allow_redirects=False,
-                               stream=True)
-        return req
-
-    def __call__(self, wbrequest):
-
-        url = wbrequest.wb_url.url
-
-        if not wbrequest.wb_url.mod:
-            embed_url = wbrequest.wb_url.to_str(mod='mp_')
-            timestamp = datetime_to_timestamp(datetime.datetime.utcnow())
-
-            return self.frame_insert_view.render_response(embed_url=embed_url,
-                                                          wbrequest=wbrequest,
-                                                          timestamp=timestamp,
-                                                          url=url)
-
-        ts_err = url.split('///')
-        if len(ts_err) > 1:
-            url = 'http://' + ts_err[1]
-
-        try:
-            status_headers, stream = self.proxy_request(url, wbrequest.env)
-        except Exception:
-            print 'ERR on ', url
-            raise
-
-        urlkey = canonicalize(url)
-
-        cdx = {'urlkey': urlkey,
-               'timestamp': datetime_to_timestamp(datetime.datetime.utcnow()),
-               'original': url,
-               'statuscode' : status_headers.statusline.split(' ')[0],
-               'mimetype' : status_headers.get_header('Content-Type')
-              }
-
-
-        #head_insert_func = self.get_head_insert_func(wbrequest, cdx)
-        head_insert_func = self.head_insert_view.create_insert_func(wbrequest,
-                                                                    cdx)
-
-        result = self.rewriter.rewrite_content(wbrequest.urlrewriter,
-                                               status_headers,
-                                               stream,
-                                               head_insert_func=head_insert_func,
-                                               urlkey=urlkey)
-
-        status_headers, gen, is_rewritten = result
-
-        return WbResponse(status_headers, gen)
-
-
-def create_rewrite_app(): # pragma: no cover
-    routes = [Route('rewrite', RewriteHandler()),
-              Route('static/default', StaticHandler('pywb/static/'))
-             ]
-    return ArchivalRouter(routes, hostpaths=['http://localhost:8080'])
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 84e21624..5a560279 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -117,11 +117,11 @@ def add_env_globals(glb):
 
 #=================================================================
 class HeadInsertView(J2TemplateView):
-    def create_insert_func(self, wbrequest, cdx):
+    def create_insert_func(self, wbrequest):
 
         canon_url = wbrequest.wb_prefix + wbrequest.wb_url.to_str(mod='')
 
-        def make_head_insert(rule):
+        def make_head_insert(rule, cdx):
             return (self.render_to_string(wbrequest=wbrequest,
                                           cdx=cdx,
                                           canon_url=canon_url,
diff --git a/setup.py b/setup.py
index cb5717f1..329537c0 100755
--- a/setup.py
+++ b/setup.py
@@ -66,6 +66,7 @@ setup(
     install_requires=[
         'rfc3987',
         'chardet',
+        'requests',
         'redis',
         'jinja2',
         'surt',
@@ -84,8 +85,8 @@ setup(
         [console_scripts]
         wayback = pywb.apps.wayback:main
         cdx-server = pywb.apps.cdx_server:main
-        rewrite-live = pywb.apps.rewrite_live:main
         cdx-indexer = pywb.warc.archiveindexer:main
+        live-rewrite-server = pywb.apps.live_rewrite_server:main
         """,
     zip_safe=False,
     classifiers=[
diff --git a/tests/test_live_rewriter.py b/tests/test_live_rewriter.py
new file mode 100644
index 00000000..2cc9e108
--- /dev/null
+++ b/tests/test_live_rewriter.py
@@ -0,0 +1,25 @@
+from pywb.webapp.live_rewrite_handler import create_live_rewriter_app
+from pywb.framework.wsgi_wrappers import init_app
+import webtest
+
+class TestLiveRewriter:
+    def setup(self):
+        self.app = init_app(create_live_rewriter_app, load_yaml=False)
+        self.testapp = webtest.TestApp(self.app)
+
+    def test_live_rewrite_1(self):
+        headers = [('User-Agent', 'python')]
+        resp = self.testapp.get('/rewrite/mp_/http://example.com/', headers=headers)
+        assert resp.status_int == 200
+
+    def test_live_rewrite_redirect_2(self):
+        resp = self.testapp.get('/rewrite/mp_/http://facebook.com/')
+        assert resp.status_int == 301
+
+    def test_live_rewrite_frame(self):
+        resp = self.testapp.get('/rewrite/http://example.com/')
+        assert resp.status_int == 200
+        assert '<iframe ' in resp.body
+        assert 'src="/rewrite/mp_/http://example.com/"' in resp.body
+
+

From 7636c9d3f7973bf1092dbddc987bc49a1b91433c Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 9 Apr 2014 16:44:45 -0700
Subject: [PATCH 15/55] fix: when reading response, only readline() if previous
 read() was non-empty

---
 pywb/rewrite/rewrite_content.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index 61f2641c..c62f39d9 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -204,13 +204,17 @@ class RewriteContent:
             if first_buff:
                 buff = first_buff
             else:
-                buff = stream.read() + stream.readline()
+                buff = stream.read()
+                if buff:
+                    buff += stream.readline()
 
             while buff:
                 if rewrite_func:
                     buff = rewrite_func(buff)
                 yield buff
-                buff = stream.read() + stream.readline()
+                buff = stream.read()
+                if buff:
+                    buff += stream.readline()
 
             # For adding a tail/handling final buffer
             if final_read_func:

From d8c9a803f619ff8feacd8a5298c67687be40ab46 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 13 Apr 2014 17:50:26 -0700
Subject: [PATCH 16/55] add support for optional proxies (verify set to false
 for now)

---
 pywb/rewrite/rewrite_live.py | 24 ++++++++++++++++++------
 1 file changed, 18 insertions(+), 6 deletions(-)

diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index 7bc1f8db..d3746198 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -50,7 +50,8 @@ class LiveRewriter(object):
     def fetch_http(self, url,
                    env=None,
                    req_headers={},
-                   follow_redirects=False):
+                   follow_redirects=False,
+                   proxies=None):
 
         method = 'GET'
         data = None
@@ -69,7 +70,9 @@ class LiveRewriter(object):
                                     data=data,
                                     headers=req_headers,
                                     allow_redirects=follow_redirects,
-                                    stream=True)
+                                    proxies=proxies,
+                                    stream=True,
+                                    verify=False)
 
         statusline = str(response.status_code) + ' ' + response.reason
 
@@ -81,8 +84,13 @@ class LiveRewriter(object):
         return (status_headers, stream)
 
     def fetch_request(self, url, urlrewriter,
-                      head_insert_func=None, urlkey=None,
-                      env=None, req_headers={}, follow_redirects=False):
+                      head_insert_func=None,
+                      urlkey=None,
+                      env=None,
+                      req_headers={},
+                      timestamp=None,
+                      follow_redirects=False,
+                      proxies=None):
 
         ts_err = url.split('///')
 
@@ -94,7 +102,8 @@ class LiveRewriter(object):
 
         if is_http(url):
             (status_headers, stream) = self.fetch_http(url, env, req_headers,
-                                                       follow_redirects)
+                                                       follow_redirects,
+                                                       proxies)
         else:
             (status_headers, stream) = self.fetch_local_file(url)
 
@@ -102,8 +111,11 @@ class LiveRewriter(object):
         if not urlkey:
             urlkey = canonicalize(url)
 
+        if timestamp is None:
+            timestamp = datetime_to_timestamp(datetime.datetime.utcnow())
+
         cdx = {'urlkey': urlkey,
-               'timestamp': datetime_to_timestamp(datetime.datetime.utcnow()),
+               'timestamp': timestamp,
                'original': url,
                'statuscode': status_headers.get_statuscode(),
                'mimetype': status_headers.get_header('Content-Type')

From 611b9093bd1b7797bca18bf7bf50e635e7f53821 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 13 Apr 2014 18:17:31 -0700
Subject: [PATCH 17/55] html insert: add include_ts option to optionally not
 add timestamp

---
 pywb/webapp/views.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 5a560279..1e9a1a8a 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -66,7 +66,8 @@ def is_wb_handler(obj):
 
 #=================================================================
 class J2TemplateView:
-    env_globals = {'static_path': 'static/default'}
+    env_globals = {'static_path': 'static/default',
+                   'package': 'pywb'}
 
     def __init__(self, filename):
         template_dir, template_file = path.split(filename)
@@ -79,7 +80,7 @@ class J2TemplateView:
         if template_dir.startswith('.') or template_dir.startswith('file://'):
             loader = FileSystemLoader(template_dir)
         else:
-            loader = PackageLoader('pywb', template_dir)
+            loader = PackageLoader(self.env_globals['package'], template_dir)
 
         jinja_env = Environment(loader=loader, trim_blocks=True)
         jinja_env.filters.update(FILTERS)
@@ -117,14 +118,16 @@ def add_env_globals(glb):
 
 #=================================================================
 class HeadInsertView(J2TemplateView):
-    def create_insert_func(self, wbrequest):
+    def create_insert_func(self, wbrequest, include_ts=True):
 
         canon_url = wbrequest.wb_prefix + wbrequest.wb_url.to_str(mod='')
+        include_ts = include_ts
 
         def make_head_insert(rule, cdx):
             return (self.render_to_string(wbrequest=wbrequest,
                                           cdx=cdx,
                                           canon_url=canon_url,
+                                          include_ts=include_ts,
                                           rule=rule))
         return make_head_insert
 

From 85593696fa13fbd32b4a129c51a5121025594ac0 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 15 Apr 2014 16:38:53 -0700
Subject: [PATCH 18/55] remove rfc3987 validation, was rejecting valid urls add
 extract_referer_wburl_str() to extract WbUrl str, if any, from the referrer.
 Use that for live_rewrite_handler to override default referrer

---
 pywb/framework/test/test_wbrequestresponse.py | 10 +++++++
 pywb/framework/wbrequestresponse.py           | 10 +++++++
 pywb/rewrite/rewrite_live.py                  |  7 ++++-
 pywb/rewrite/test/test_wburl.py               |  9 ++++---
 pywb/rewrite/wburl.py                         |  9 -------
 pywb/webapp/live_rewrite_handler.py           | 26 ++++++++++++++-----
 setup.py                                      |  1 -
 tests/test_live_rewriter.py                   |  2 +-
 8 files changed, 51 insertions(+), 23 deletions(-)

diff --git a/pywb/framework/test/test_wbrequestresponse.py b/pywb/framework/test/test_wbrequestresponse.py
index f090a6ae..493ca0c2 100644
--- a/pywb/framework/test/test_wbrequestresponse.py
+++ b/pywb/framework/test/test_wbrequestresponse.py
@@ -25,6 +25,16 @@
 >>> print_req_from_uri('/2010/example.com', {'HTTP_HOST': 'localhost:8080'}, use_abs_prefix = True)
 {'wb_url': ('latest_replay', '', '', 'http://example.com', 'http://example.com'), 'coll': '2010', 'wb_prefix': '/2010/', 'request_uri': '/2010/example.com'}
 
+# Referrer extraction
+>>> WbUrl(req_from_uri('/web/2010/example.com', {'wsgi.url_scheme': 'http', 'HTTP_HOST': 'localhost:8080', 'HTTP_REFERER': 'http://localhost:8080/web/2011/blah.example.com/'}).extract_referrer_wburl_str()).url
+'http://blah.example.com/'
+
+# incorrect referer
+>>> req_from_uri('/web/2010/example.com', {'wsgi.url_scheme': 'http', 'HTTP_HOST': 'localhost:8080', 'HTTP_REFERER': 'http://other.example.com/web/2011/blah.example.com/'}).extract_referrer_wburl_str()
+
+
+# no referer
+>>> req_from_uri('/web/2010/example.com', {'wsgi.url_scheme': 'http', 'HTTP_HOST': 'localhost:8080'}).extract_referrer_wburl_str()
 
 
 # WbResponse Tests
diff --git a/pywb/framework/wbrequestresponse.py b/pywb/framework/wbrequestresponse.py
index 11fd99db..80156aff 100644
--- a/pywb/framework/wbrequestresponse.py
+++ b/pywb/framework/wbrequestresponse.py
@@ -105,6 +105,16 @@ class WbRequest(object):
     def _parse_extra(self):
         pass
 
+    def extract_referrer_wburl_str(self):
+        if not self.referrer:
+            return None
+
+        if not self.referrer.startswith(self.host_prefix + self.rel_prefix):
+            return None
+
+        wburl_str = self.referrer[len(self.host_prefix + self.rel_prefix):]
+        return wburl_str
+
 
 #=================================================================
 class WbResponse(object):
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index d3746198..61113114 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -17,7 +17,12 @@ from pywb.rewrite.rewrite_content import RewriteContent
 
 #=================================================================
 class LiveRewriter(object):
-    PROXY_HEADER_LIST = [('HTTP_USER_AGENT', 'User-Agent')]
+    PROXY_HEADER_LIST = [('HTTP_USER_AGENT', 'User-Agent'),
+                         ('HTTP_ACCEPT', 'Accept'),
+                         ('HTTP_ACCEPT_LANGUAGE', 'Accept-Language'),
+                         ('HTTP_ACCEPT_CHARSET', 'Accept-Charset'),
+                         ('HTTP_REFERER', 'Referer'),
+                        ]
 
     def __init__(self, defmod=''):
         self.rewriter = RewriteContent(defmod=defmod)
diff --git a/pywb/rewrite/test/test_wburl.py b/pywb/rewrite/test/test_wburl.py
index 955e24df..bcad948e 100644
--- a/pywb/rewrite/test/test_wburl.py
+++ b/pywb/rewrite/test/test_wburl.py
@@ -60,13 +60,14 @@
 
 # Error Urls
 # ======================
->>> x = WbUrl('/#$%#/')
+# no longer rejecting this here
+#>>> x = WbUrl('/#$%#/')
 Traceback (most recent call last):
 Exception: Bad Request Url: http://#$%#/
 
->>> x = WbUrl('/http://example.com:abc/')
-Traceback (most recent call last):
-Exception: Bad Request Url: http://example.com:abc/
+#>>> x = WbUrl('/http://example.com:abc/')
+#Traceback (most recent call last):
+#Exception: Bad Request Url: http://example.com:abc/
 
 >>> x = WbUrl('')
 Traceback (most recent call last):
diff --git a/pywb/rewrite/wburl.py b/pywb/rewrite/wburl.py
index 982743ae..c2ac9b23 100644
--- a/pywb/rewrite/wburl.py
+++ b/pywb/rewrite/wburl.py
@@ -39,7 +39,6 @@ wayback url format.
 """
 
 import re
-import rfc3987
 
 
 #=================================================================
@@ -104,14 +103,6 @@ class WbUrl(BaseWbUrl):
             if inx < len(self.url) and self.url[inx] != '/':
                 self.url = self.url[:inx] + '/' + self.url[inx:]
 
-        # BUG?: adding upper() because rfc3987 lib
-        # rejects lower case %-encoding
-        # %2F is fine, but %2f -- standard supports either
-        matcher = rfc3987.match(self.url.upper(), 'IRI')
-
-        if not matcher:
-            raise Exception('Bad Request Url: ' + self.url)
-
     # Match query regex
     # ======================
     def _init_query(self, url):
diff --git a/pywb/webapp/live_rewrite_handler.py b/pywb/webapp/live_rewrite_handler.py
index d554c010..46392dc1 100644
--- a/pywb/webapp/live_rewrite_handler.py
+++ b/pywb/webapp/live_rewrite_handler.py
@@ -3,6 +3,7 @@ from pywb.framework.wbrequestresponse import WbResponse
 from pywb.framework.archivalrouter import ArchivalRouter, Route
 
 from pywb.rewrite.rewrite_live import LiveRewriter
+from pywb.rewrite.wburl import WbUrl
 
 from handlers import StaticHandler
 
@@ -22,16 +23,22 @@ class RewriteHandler(WbUrlHandler):
         #use_lxml_parser()
         self.rewriter = LiveRewriter(defmod='mp_')
 
-        head_insert = config.get('head_insert_html',
-                                 'ui/head_insert.html')
+        view = config.get('head_insert_view')
+        if not view:
+            head_insert = config.get('head_insert_html',
+                                     'ui/head_insert.html')
+            view = HeadInsertView.create_template(head_insert, 'Head Insert')
 
-        frame_insert = config.get('frame_insert_html',
-                                  'ui/frame_insert.html')
-
-        view = HeadInsertView.create_template(head_insert, 'Head Insert')
         self.head_insert_view = view
 
-        view = J2TemplateView.create_template(frame_insert, 'Frame Insert')
+
+        view = config.get('frame_insert_view')
+        if not view:
+            frame_insert = config.get('frame_insert_html',
+                                      'ui/frame_insert.html')
+
+            view = J2TemplateView.create_template(frame_insert, 'Frame Insert')
+
         self.frame_insert_view = view
 
     def __call__(self, wbrequest):
@@ -49,6 +56,11 @@ class RewriteHandler(WbUrlHandler):
 
         head_insert_func = self.head_insert_view.create_insert_func(wbrequest)
 
+        ref_wburl_str = wbrequest.extract_referrer_wburl_str()
+        if ref_wburl_str:
+            wbrequest.env['HTTP_REFERER'] = WbUrl(ref_wburl_str).url
+
+
         result = self.rewriter.fetch_request(url, wbrequest.urlrewriter,
                                              head_insert_func=head_insert_func,
                                              env=wbrequest.env)
diff --git a/setup.py b/setup.py
index 329537c0..91279b4f 100755
--- a/setup.py
+++ b/setup.py
@@ -64,7 +64,6 @@ setup(
             glob.glob('sample_archive/text_content/*')),
         ],
     install_requires=[
-        'rfc3987',
         'chardet',
         'requests',
         'redis',
diff --git a/tests/test_live_rewriter.py b/tests/test_live_rewriter.py
index 2cc9e108..b2a6dada 100644
--- a/tests/test_live_rewriter.py
+++ b/tests/test_live_rewriter.py
@@ -8,7 +8,7 @@ class TestLiveRewriter:
         self.testapp = webtest.TestApp(self.app)
 
     def test_live_rewrite_1(self):
-        headers = [('User-Agent', 'python')]
+        headers = [('User-Agent', 'python'), ('Referer', 'http://localhost:80/rewrite/other.example.com')]
         resp = self.testapp.get('/rewrite/mp_/http://example.com/', headers=headers)
         assert resp.status_int == 200
 

From e011da43f24feb246f4d8b83d8249e6557a8f4c8 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 15 Apr 2014 16:44:02 -0700
Subject: [PATCH 19/55] live rewrite: use custom REL_REFERER field don't
 overrie HTTP_REFERER if REL_REFERER not set, don't send any referrer

---
 pywb/rewrite/rewrite_live.py        | 2 +-
 pywb/webapp/live_rewrite_handler.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index 61113114..2510aa10 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -21,7 +21,7 @@ class LiveRewriter(object):
                          ('HTTP_ACCEPT', 'Accept'),
                          ('HTTP_ACCEPT_LANGUAGE', 'Accept-Language'),
                          ('HTTP_ACCEPT_CHARSET', 'Accept-Charset'),
-                         ('HTTP_REFERER', 'Referer'),
+                         ('REL_REFERER', 'Referer'),
                         ]
 
     def __init__(self, defmod=''):
diff --git a/pywb/webapp/live_rewrite_handler.py b/pywb/webapp/live_rewrite_handler.py
index 46392dc1..8ed37722 100644
--- a/pywb/webapp/live_rewrite_handler.py
+++ b/pywb/webapp/live_rewrite_handler.py
@@ -58,7 +58,7 @@ class RewriteHandler(WbUrlHandler):
 
         ref_wburl_str = wbrequest.extract_referrer_wburl_str()
         if ref_wburl_str:
-            wbrequest.env['HTTP_REFERER'] = WbUrl(ref_wburl_str).url
+            wbrequest.env['REL_REFERER'] = WbUrl(ref_wburl_str).url
 
 
         result = self.rewriter.fetch_request(url, wbrequest.urlrewriter,

From 23bb5bd175d53fa44a35a1fa034c33bf87f65dea Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 18 Apr 2014 19:30:48 -0700
Subject: [PATCH 20/55] rewrite: wombat update 2.0! Using
 Object.defineProperty() to better override .href and .hash properties when
 possible. .href returns original url, but on assignment rewrites before
 redirecting .hash proxies to location.hash Also added: - window.top ->
 window.WB_wombat_top - document.referrer -> document.WB_wombat_referrer -
 <source> html tag rewriting

---
 pywb/rewrite/html_rewriter.py   |   1 +
 pywb/rewrite/regex_rewriters.py |   2 +
 pywb/rewrite/rewrite_live.py    |   3 +
 pywb/static/wombat.js           | 324 +++++++++++++++++++++++---------
 4 files changed, 242 insertions(+), 88 deletions(-)

diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index 36601e98..a855cda2 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -45,6 +45,7 @@ class HTMLRewriterMixin(object):
             'q':       {'cite': defmod},
             'ref':     {'href': 'oe_'},
             'script':  {'src': 'js_'},
+            'source':  {'src': 'oe_'},
             'div':     {'data-src': defmod,
                         'data-uri': defmod},
             'li':      {'data-src': defmod,
diff --git a/pywb/rewrite/regex_rewriters.py b/pywb/rewrite/regex_rewriters.py
index 5f429339..0fffc7c2 100644
--- a/pywb/rewrite/regex_rewriters.py
+++ b/pywb/rewrite/regex_rewriters.py
@@ -126,6 +126,8 @@ class JSLinkAndLocationRewriter(JSLinkOnlyRewriter):
         rules = rules + [
              (r'(?<!/)\blocation\b', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)domain', RegexRewriter.add_prefix(prefix), 0),
+             (r'(?<=document\.)referrer', RegexRewriter.add_prefix(prefix), 0),
+             (r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
         ]
         #import sys
         #sys.stderr.write('\n\n*** RULES:' + str(rules) + '\n\n')
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index 2510aa10..4d0951ef 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -21,6 +21,8 @@ class LiveRewriter(object):
                          ('HTTP_ACCEPT', 'Accept'),
                          ('HTTP_ACCEPT_LANGUAGE', 'Accept-Language'),
                          ('HTTP_ACCEPT_CHARSET', 'Accept-Charset'),
+                         ('HTTP_ACCEPT_ENCODING', 'Accept-Encoding'),
+                         ('HTTP_RANGE', 'Range'),
                          ('REL_REFERER', 'Referer'),
                         ]
 
@@ -79,6 +81,7 @@ class LiveRewriter(object):
                                     stream=True,
                                     verify=False)
 
+
         statusline = str(response.status_code) + ' ' + response.reason
 
         headers = response.headers.items()
diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index 873d0c1a..1792119e 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -18,7 +18,7 @@ This file is part of pywb.
  */
 
 //============================================
-// Wombat JS-Rewriting Library
+// Wombat JS-Rewriting Library v2.0
 //============================================
 WB_wombat_init = (function() {
 
@@ -52,14 +52,22 @@ WB_wombat_init = (function() {
         return false;
     }
 
-    function starts_with(string, prefix) {
-        if (string.indexOf(prefix) == 0) {
-            return prefix;
-        } else {
-            return undefined;
+    //============================================
+    function starts_with(string, arr_or_prefix) {
+        if (arr_or_prefix instanceof Array) {
+            for (var i = 0; i < arr_or_prefix.length; i++) {
+                if (string.indexOf(arr_or_prefix[i]) == 0) {
+                    return arr_or_prefix[i];
+                }
+            }
+        } else if (string.indexOf(arr_or_prefix) == 0) {
+            return arr_or_prefix;
         }
+        
+        return undefined;
     }
 
+    //============================================
     function ends_with(str, suffix) {
         if (str.indexOf(suffix, str.length - suffix.length) !== -1) {
             return suffix;
@@ -76,38 +84,47 @@ WB_wombat_init = (function() {
         if (url != rewritten) {
             console.log('REWRITE: ' + url + ' -> ' + rewritten);
         } else {
-            //console.log('NOT REWRITTEN ' + url);
+            console.log('NOT REWRITTEN ' + url);
         }
         return rewritten;
     }
+    
+    //============================================
+    var HTTP_PREFIX = "http://";
+    var HTTPS_PREFIX = "https://";
+    var REL_PREFIX = "//";
+    
+    var VALID_PREFIXES = [HTTP_PREFIX, HTTPS_PREFIX, REL_PREFIX];
+    var IGNORE_PREFIXES = ["#", "about:", "data:", "mailto:", "javascript:"];
 
+    
+    //============================================
     function rewrite_url_(url) {
-        var http_prefix = "http://";
-        var https_prefix = "https://";
-        var rel_prefix = "//";
-
         // If not dealing with a string, just return it
         if (!url || (typeof url) != "string") {
             return url;
         }
 
-        // ignore anchors
-        if (starts_with(url, "#")) {
+        // just in case wombat reference made it into url!
+        url = url.replace("WB_wombat_", "");
+
+        // ignore anchors, about, data
+        if (starts_with(url, IGNORE_PREFIXES)) {
             return url;
         }
 
         // If starts with prefix, no rewriting needed
         // Only check replay prefix (no date) as date may be different for each
         // capture
-        if (starts_with(url, wb_replay_prefix)) {
+        if (starts_with(url, wb_replay_prefix) || starts_with(url, window.location.origin + wb_replay_prefix)) {
             return url;
         }
 
         // If server relative url, add prefix and original host
-        if (url.charAt(0) == "/" && !starts_with(url, rel_prefix)) {
+        if (url.charAt(0) == "/" && !starts_with(url, REL_PREFIX)) {
 
             // Already a relative url, don't make any changes!
-            if (url.indexOf(wb_capture_date_part) >= 0) {
+            if (wb_capture_date_part && url.indexOf(wb_capture_date_part) >= 0) {
                 return url;
             }
 
@@ -116,9 +133,7 @@ WB_wombat_init = (function() {
 
         // If full url starting with http://, add prefix
 
-        var prefix = starts_with(url, http_prefix) || 
-                     starts_with(url, https_prefix) || 
-                     starts_with(url, rel_prefix);
+        var prefix = starts_with(url, VALID_PREFIXES);
 
         if (prefix) {
             if (starts_with(url, prefix + window.location.host + '/')) {
@@ -130,25 +145,12 @@ WB_wombat_init = (function() {
         // May or may not be a hostname, call function to determine
         // If it is, add the prefix and make sure port is removed
         if (is_host_url(url) && !starts_with(url, window.location.host + '/')) {
-            return wb_replay_date_prefix + http_prefix + url;
+            return wb_replay_date_prefix + HTTP_PREFIX + url;
         }
 
         return url;
     }
 
-    //============================================
-    function copy_object_fields(obj) {
-        var new_obj = {};
-
-        for (prop in obj) {
-            if ((typeof obj[prop]) != "function") {
-                new_obj[prop] = obj[prop];
-            }
-        }
-
-        return new_obj;
-    }
-
     //============================================
     function extract_orig(href) {
         if (!href) {
@@ -162,6 +164,20 @@ WB_wombat_init = (function() {
         // extract original url from wburl
         if (index > 0) {
             href = href.substr(index + 1);
+        } else {
+            index = href.indexOf(wb_replay_prefix);
+            if (index >= 0) {
+                href = href.substr(index + wb_replay_prefix.length);
+            }
+            if ((href.length > 4) && 
+                (href.charAt(2) == "_") && 
+                (href.charAt(3) == "/")) {
+                href = href.substr(4);
+            }
+            
+            if (!starts_with(href, "http")) {
+                href = HTTP_PREFIX + href;
+            }
         }
 
         // remove trailing slash
@@ -171,55 +187,142 @@ WB_wombat_init = (function() {
 
         return href;
     }
-
+    
     //============================================
-    function copy_location_obj(loc) {
-        var new_loc = copy_object_fields(loc);
-
-        new_loc._orig_loc = loc;
-        new_loc._orig_href = loc.href;
+    // Define custom property
+    function defProp(obj, prop, value, set_func, get_func) {
+        var key = "_" + prop;
+        obj[key] = value;
+        
+        try {
+            Object.defineProperty(obj, prop, {
+                configurable: false,
+                enumerable: true,
+                set: function(newval) { 
+                    var result = set_func.call(obj, newval);
+                    if (result != undefined) {
+                        obj[key] = result;
+                    }
+                },
+                get: function() {
+                    if (get_func) {
+                        return get_func.call(obj, obj[key]);
+                    } else {
+                        return obj[key];
+                    }
+                }
+            });
+            return true;
+        } catch (e) {
+            console.log(e);
+            obj[prop] = value;
+            return false;
+        }
+    }      
+    
+    //============================================
+    //Define WombatLocation
+    
+    function WombatLocation(loc) {       
+        this._orig_loc = loc;
+        this._orig_href = loc.href;
 
         // Rewrite replace and assign functions
-        new_loc.replace = function(url) {
-            this._orig_loc.replace(rewrite_url(url));
+        this.replace = function(url) {
+            return this._orig_loc.replace(rewrite_url(url));
         }
-        new_loc.assign = function(url) {
-            this._orig_loc.assign(rewrite_url(url));
+        this.assign = function(url) {
+            return this._orig_loc.assign(rewrite_url(url));
         }
-        new_loc.reload = loc.reload;
-
+        this.reload = loc.reload;
+              
         // Adapted from:
         // https://gist.github.com/jlong/2428561
         var parser = document.createElement('a');
-        parser.href = extract_orig(new_loc._orig_href);
+        var href = extract_orig(this._orig_href);
+        parser.href = href;
+        
+        //console.log(this._orig_href + " -> " + tmp_href);
+        this._autooverride = false;
+        
+        var _set_hash = function(hash) {
+            this._orig_loc.hash = hash;
+            return this._orig_loc.hash;
+        }
+        
+        var _get_hash = function() {
+            return this._orig_loc.hash;
+        }
+        
+        var _get_url_with_hash = function(url) {
+            return url + this._orig_loc.hash;
+        }
+        
+        href = parser.href;
+        var hash = parser.hash;
+        
+        if (hash) {
+            var hidx = href.lastIndexOf("#");
+            if (hidx > 0) {
+                href = href.substring(0, hidx);
+            }
+        }
+        
+        if (Object.defineProperty) {
+            var res1 = defProp(this, "href", href,
+                               this.assign,
+                               _get_url_with_hash);
+            
+            var res2 = defProp(this, "hash", parser.hash,
+                               _set_hash,
+                               _get_hash);
+            
+            this._autooverride = res1 && res2;
+        }
+                    
+        this.host = parser.host;
+        this.hostname = parser.hostname;
 
-        new_loc.hash = parser.hash;
-        new_loc.host = parser.host;
-        new_loc.hostname = parser.hostname;
-        new_loc.href = parser.href;
-
-        if (new_loc.origin) {
-            new_loc.origin = parser.origin;
+        if (parser.origin) {
+            this.origin = parser.origin;
         }
 
-        new_loc.pathname = parser.pathname;
-        new_loc.port = parser.port
-        new_loc.protocol = parser.protocol;
-        new_loc.search = parser.search;
+        this.pathname = parser.pathname;
+        this.port = parser.port
+        this.protocol = parser.protocol;
+        this.search = parser.search;
 
-        new_loc.toString = function() {
+        this.toString = function() {
             return this.href;
         }
-
-        return new_loc;
+        
+        // Copy any remaining properties
+        for (prop in loc) {
+            if (this.hasOwnProperty(prop)) {
+                continue;
+            }
+          
+            if ((typeof loc[prop]) != "function") {
+                this[prop] = loc[prop];
+            }
+        }       
     }
 
     //============================================
-    function update_location(req_href, orig_href, actual_location) {
-        if (!req_href || req_href == orig_href) {
+    function update_location(req_href, orig_href, actual_location, wombat_loc) {
+        if (!req_href) {
             return;
         }
 
+        if (req_href == orig_href) {
+            // Reset wombat loc to the unrewritten version
+            //if (wombat_loc) {
+            //    wombat_loc.href = extract_orig(orig_href);
+            //}
+            return;
+        }
+
+
         ext_orig = extract_orig(orig_href);
         ext_req = extract_orig(req_href);
 
@@ -235,19 +338,19 @@ WB_wombat_init = (function() {
     }
 
     //============================================
-    function check_location_change(loc, is_top) {
-        var locType = (typeof loc);
+    function check_location_change(wombat_loc, is_top) {
+        var locType = (typeof wombat_loc);
 
         var actual_location = (is_top ? window.top.location : window.location);
 
-        //console.log(loc.href);
-
         // String has been assigned to location, so assign it
         if (locType == "string") {
-            update_location(loc, actual_location.href, actual_location)
-
+            update_location(wombat_loc, actual_location.href, actual_location);
+            
         } else if (locType == "object") {
-            update_location(loc.href, loc._orig_href, actual_location);
+            update_location(wombat_loc.href,
+                            wombat_loc._orig_href, 
+                            actual_location);
         }
     }
 
@@ -261,10 +364,21 @@ WB_wombat_init = (function() {
 
         check_location_change(window.WB_wombat_location, false);
 
-        if (window.self.location != window.top.location) {
+        // Only check top if its a different window
+        if (window.self.WB_wombat_location != window.top.WB_wombat_location) {
             check_location_change(window.top.WB_wombat_location, true);
         }
 
+//        lochash = window.WB_wombat_location.hash;
+//
+//        if (lochash) {
+//            window.location.hash = lochash;
+//
+//            //if (window.top.update_wb_url) {
+//            //    window.top.location.hash = lochash;
+//            //}
+//        }
+
         wb_wombat_updating = false;
     }
 
@@ -328,6 +442,7 @@ WB_wombat_init = (function() {
         window.XMLHttpRequest.prototype.open = open_rewritten;
     }
 
+    //============================================
     function init_worker_override() {
         if (!window.Worker) {
             return;
@@ -338,6 +453,7 @@ WB_wombat_init = (function() {
         window.Worker = undefined;
     }
 
+    //============================================
     function rewrite_attr(elem, name) {
         if (!elem || !elem.getAttribute) {
             return;
@@ -359,6 +475,7 @@ WB_wombat_init = (function() {
         elem.setAttribute(name, value);
     }
 
+    //============================================
     function init_dom_override() {
         if (!Node || !Node.prototype) {
             return;
@@ -376,9 +493,9 @@ WB_wombat_init = (function() {
                 var desc;
 
                 if (child instanceof DocumentFragment) {
-                    desc = child.querySelectorAll("*[href],*[src]");
+                    //desc = child.querySelectorAll("*[href],*[src]");
                 } else if (child.getElementsByTagName) {
-                    desc = child.getElementsByTagName("*");
+                    //desc = child.getElementsByTagName("*");
                 }
 
                 if (desc) {
@@ -401,19 +518,55 @@ WB_wombat_init = (function() {
     //============================================
     function wombat_init(replay_prefix, capture_date, orig_host, timestamp) {
         wb_replay_prefix = replay_prefix;
-        wb_replay_date_prefix = replay_prefix + capture_date + "/";
-        wb_capture_date_part = "/" + capture_date + "/";
 
-        wb_orig_host = "http://" + orig_host;
+        wb_replay_date_prefix = replay_prefix + capture_date + "em_/";
+        
+        if (capture_date.length > 0) {
+            wb_capture_date_part = "/" + capture_date + "/";
+        } else {
+            wb_capture_date_part = "";
+        }
+
+        wb_orig_host = HTTP_PREFIX + orig_host;
 
         // Location
-        window.WB_wombat_location = copy_location_obj(window.self.location);
-        document.WB_wombat_location = window.WB_wombat_location;
+        var wombat_location = new WombatLocation(window.self.location);
+        
+        if (wombat_location._autooverride) {
+                        
+            var setter = function(val) {
+                if (typeof(val) == "string") { 
+                    if (starts_with(val, "about:")) {
+                        return undefined;
+                    }
+                    this._WB_wombat_location.href = val;
+                }
+            }
+            
+            defProp(window, "WB_wombat_location", wombat_location, setter);
+            defProp(document, "WB_wombat_location", wombat_location, setter);
+        } else {
+            // Check quickly after page load
+            setTimeout(check_all_locations, 500);   
+      
+            // Check periodically every few seconds
+            setInterval(check_all_locations, 500);
+        }
+        
+        var is_framed = (window.top.update_wb_url != undefined);
 
-        //if (window.self.location != window.top.location) {
-        //    window.top.WB_wombat_location = copy_location_obj(window.top.location);
-        //}
-        window.top.WB_wombat_location = window.WB_wombat_location;
+        if (window.self.location != window.top.location) {
+            if (is_framed) {
+                window.top.WB_wombat_location = window.WB_wombat_location;
+                window.WB_wombat_top = window.self;
+            } else {
+                window.top.WB_wombat_location = new WombatLocation(window.top.location);
+                
+                window.WB_wombat_top = window.top;
+            }
+        } else {
+            window.WB_wombat_top = window.top;
+        }
 
         //if (window.opener) {
         //    window.opener.WB_wombat_location = copy_location_obj(window.opener.location);
@@ -421,6 +574,7 @@ WB_wombat_init = (function() {
 
         // Domain
         document.WB_wombat_domain = orig_host;
+        document.WB_wombat_referrer = extract_orig(document.referrer);
 
         // History
         copy_history_func(window.history, 'pushState');
@@ -434,15 +588,9 @@ WB_wombat_init = (function() {
         init_dom_override();
 
         // Random
-        init_seeded_random(timestamp);       
+        init_seeded_random(timestamp);
     }
 
-    // Check quickly after page load
-    setTimeout(check_all_locations, 100);
-
-    // Check periodically every few seconds
-    setInterval(check_all_locations, 500);
-
     return wombat_init;
 
 })(this);

From e1e55ac0618c83344aa7b7c9cd479c59970ffcf1 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sat, 19 Apr 2014 12:04:43 -0700
Subject: [PATCH 21/55] minor tweaks: rewrite 'crossorigin' -> '_crossorigin'
 param to disable crossorigin as it may interfere with loading rewritten
 content, add tests for html and lxml parsers add server_cls as optional param
 to QueryHandler.init_from_config() for easier customization views: dont
 create template if empty template file specified

---
 pywb/rewrite/html_rewriter.py                |  5 +++++
 pywb/rewrite/test/test_html_rewriter.py      |  4 ++++
 pywb/rewrite/test/test_lxml_html_rewriter.py |  4 ++++
 pywb/webapp/query_handler.py                 | 21 ++++++++++----------
 pywb/webapp/views.py                         |  3 +++
 5 files changed, 27 insertions(+), 10 deletions(-)

diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index a855cda2..a2d3130a 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -167,6 +167,11 @@ class HTMLRewriterMixin(object):
             elif attr_name == 'style':
                 attr_value = self._rewrite_css(attr_value)
 
+            # special case: disable crossorigin attr
+            # as they may interfere with rewriting semantics
+            elif attr_name == 'crossorigin':
+                attr_name = '_crossorigin'
+
             # special case: meta tag
             elif (tag == 'meta') and (attr_name == 'content'):
                 if self.has_attr(tag_attrs, ('http-equiv', 'refresh')):
diff --git a/pywb/rewrite/test/test_html_rewriter.py b/pywb/rewrite/test/test_html_rewriter.py
index 6236ae1e..f1949a0d 100644
--- a/pywb/rewrite/test/test_html_rewriter.py
+++ b/pywb/rewrite/test/test_html_rewriter.py
@@ -56,6 +56,10 @@ ur"""
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</script>')
 <script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</script>
 
+# Script tag + crossorigin
+>>> parse('<script src="/js/scripts.js" crossorigin="anonymous"></script>')
+<script src="/web/20131226101010js_/http://example.com/js/scripts.js" _crossorigin="anonymous"></script>
+
 # Unterminated script tag, handle and auto-terminate
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</sc>')
 <script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</sc></script>
diff --git a/pywb/rewrite/test/test_lxml_html_rewriter.py b/pywb/rewrite/test/test_lxml_html_rewriter.py
index 038de4a8..d70f9ee0 100644
--- a/pywb/rewrite/test/test_lxml_html_rewriter.py
+++ b/pywb/rewrite/test/test_lxml_html_rewriter.py
@@ -51,6 +51,10 @@ ur"""
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</script>')
 <html><head><script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</script></head></html>
 
+# Script tag + crossorigin
+>>> parse('<script src="/js/scripts.js" crossorigin="anonymous"></script>')
+<html><head><script src="/web/20131226101010js_/http://example.com/js/scripts.js" _crossorigin="anonymous"></script></head></html>
+
 # Unterminated script tag, will auto-terminate
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</sc>')
 <html><head><script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</sc></script></head></html>
diff --git a/pywb/webapp/query_handler.py b/pywb/webapp/query_handler.py
index 5254eafb..172a7c3f 100644
--- a/pywb/webapp/query_handler.py
+++ b/pywb/webapp/query_handler.py
@@ -33,14 +33,14 @@ class QueryHandler(object):
     @staticmethod
     def init_from_config(config,
                          ds_rules_file=DEFAULT_RULES_FILE,
-                         html_view=None):
+                         html_view=None,
+                         server_cls=None):
 
         perms_policy = None
-        server_cls = None
 
         if hasattr(config, 'get'):
             perms_policy = config.get('perms_policy')
-            server_cls = config.get('server_cls')
+            server_cls = config.get('server_cls', server_cls)
 
         cdx_server = create_cdx_server(config, ds_rules_file, server_cls)
 
@@ -62,13 +62,6 @@ class QueryHandler(object):
         # init standard params
         params = self.get_query_params(wb_url)
 
-        # add any custom filter from the request
-        if wbrequest.query_filter:
-            params['filter'].extend(wbrequest.query_filter)
-
-        if wbrequest.custom_params:
-            params.update(wbrequest.custom_params)
-
         params['allowFuzzy'] = True
         params['url'] = wb_url.url
         params['output'] = output
@@ -81,6 +74,14 @@ class QueryHandler(object):
         return self.make_cdx_response(wbrequest, params, cdx_iter)
 
     def load_cdx(self, wbrequest, params):
+        if wbrequest:
+            # add any custom filter from the request
+            if wbrequest.query_filter:
+                params['filter'].extend(wbrequest.query_filter)
+
+            if wbrequest.custom_params:
+                params.update(wbrequest.custom_params)
+
         if self.perms_policy:
             perms_op = make_perms_cdx_filter(self.perms_policy, wbrequest)
             if perms_op:
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 1e9a1a8a..abf71494 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -104,6 +104,9 @@ class J2TemplateView:
 
     @staticmethod
     def create_template(filename, desc='', view_class=None):
+        if not filename:
+            return None
+
         if not view_class:
             view_class = J2TemplateView
 

From 6eef0afb865e8e458c8bb3e3661669c4cc3a005f Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 20 Apr 2014 21:40:27 -0700
Subject: [PATCH 22/55] add new custom rewriting rule (flickr)

---
 pywb/rules.yaml | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/pywb/rules.yaml b/pywb/rules.yaml
index cd7325eb..563a8a28 100644
--- a/pywb/rules.yaml
+++ b/pywb/rules.yaml
@@ -29,8 +29,7 @@ rules:
 
     # flickr rules
     #=================================================================
-    - url_prefix: ['com,yimg,l)/g/combo', 'com,yahooapis,yui)/combo']
-
+    - url_prefix: ['com,yimg,l)/g/combo', 'com,yimg,s)/pw/combo', 'com,yahooapis,yui)/combo']
       fuzzy_lookup: '([^/]+(?:\.css|\.js))'
 
 

From 2ad41e2b94b7f977531fd17eb59b1572ef43b216 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 22 Apr 2014 16:32:36 -0700
Subject: [PATCH 23/55] rewrite: rewrite data-* attributes if they look like
 links (http, https, //)

---
 pywb/rewrite/html_rewriter.py                | 9 +++++++++
 pywb/rewrite/regex_rewriters.py              | 3 ++-
 pywb/rewrite/test/test_html_rewriter.py      | 4 ++++
 pywb/rewrite/test/test_lxml_html_rewriter.py | 4 ++++
 4 files changed, 19 insertions(+), 1 deletion(-)

diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index a2d3130a..51ef26a0 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -60,6 +60,9 @@ class HTMLRewriterMixin(object):
     HEAD_TAGS = ['html', 'head', 'base', 'link', 'meta',
                  'title', 'style', 'script', 'object', 'bgsound']
 
+    DATA_RW_PROTOCOLS = ('http://', 'https://', '//')
+
+
     # ===========================
     class AccumBuff:
         def __init__(self):
@@ -177,6 +180,12 @@ class HTMLRewriterMixin(object):
                 if self.has_attr(tag_attrs, ('http-equiv', 'refresh')):
                     attr_value = self._rewrite_meta_refresh(attr_value)
 
+            # special case: data- attrs
+            elif attr_name and attr_value and attr_name.startswith('data-'):
+                if attr_value.startswith(self.DATA_RW_PROTOCOLS):
+                    rw_mod = 'oe_'
+                    attr_value = self._rewrite_url(attr_value, rw_mod)
+
             else:
                 # special case: base tag
                 if (tag == 'base') and (attr_name == 'href') and attr_value:
diff --git a/pywb/rewrite/regex_rewriters.py b/pywb/rewrite/regex_rewriters.py
index 0fffc7c2..2de788d7 100644
--- a/pywb/rewrite/regex_rewriters.py
+++ b/pywb/rewrite/regex_rewriters.py
@@ -127,7 +127,8 @@ class JSLinkAndLocationRewriter(JSLinkOnlyRewriter):
              (r'(?<!/)\blocation\b', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)domain', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)referrer', RegexRewriter.add_prefix(prefix), 0),
-             (r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
+             (r'(?<!/)\btop\b', RegexRewriter.add_prefix(prefix), 0),
+             #(r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
         ]
         #import sys
         #sys.stderr.write('\n\n*** RULES:' + str(rules) + '\n\n')
diff --git a/pywb/rewrite/test/test_html_rewriter.py b/pywb/rewrite/test/test_html_rewriter.py
index f1949a0d..1cae626b 100644
--- a/pywb/rewrite/test/test_html_rewriter.py
+++ b/pywb/rewrite/test/test_html_rewriter.py
@@ -52,6 +52,10 @@ ur"""
 >>> parse('<META http-equiv="refresh" content>')
 <meta http-equiv="refresh" content="">
 
+# Custom -data attribs
+>>> parse('<div data-url="http://example.com/a/b/c.html" data-some-other-value="http://example.com/img.gif">')
+<div data-url="/web/20131226101010oe_/http://example.com/a/b/c.html" data-some-other-value="/web/20131226101010oe_/http://example.com/img.gif">
+
 # Script tag
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</script>')
 <script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</script>
diff --git a/pywb/rewrite/test/test_lxml_html_rewriter.py b/pywb/rewrite/test/test_lxml_html_rewriter.py
index d70f9ee0..e9af9b8c 100644
--- a/pywb/rewrite/test/test_lxml_html_rewriter.py
+++ b/pywb/rewrite/test/test_lxml_html_rewriter.py
@@ -47,6 +47,10 @@ ur"""
 >>> parse('<META http-equiv="refresh" content>')
 <html><head><meta content="" http-equiv="refresh"></meta></head></html>
 
+# Custom -data attribs
+>>> parse('<div data-url="http://example.com/a/b/c.html" data-some-other-value="http://example.com/img.gif">')
+<html><body><div data-url="/web/20131226101010oe_/http://example.com/a/b/c.html" data-some-other-value="/web/20131226101010oe_/http://example.com/img.gif"></div></body></html>
+
 # Script tag
 >>> parse('<script>window.location = "http://example.com/a/b/c.html"</script>')
 <html><head><script>window.WB_wombat_location = "/web/20131226101010em_/http://example.com/a/b/c.html"</script></head></html>

From 48e8e8eb1c8fb9e9d557bbf3bdce2aaf95727d98 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 22 Apr 2014 16:33:47 -0700
Subject: [PATCH 24/55] allow passing optional kwargs to render search page add
 configutable 'default_mod' param

---
 pywb/webapp/handlers.py  | 7 ++++---
 pywb/webapp/pywb_init.py | 6 +++++-
 2 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/pywb/webapp/handlers.py b/pywb/webapp/handlers.py
index 2e074d66..ce11b6b1 100644
--- a/pywb/webapp/handlers.py
+++ b/pywb/webapp/handlers.py
@@ -14,7 +14,7 @@ from pywb.framework.wbrequestresponse import WbResponse
 #=================================================================
 class WBHandler(WbUrlHandler):
     def __init__(self, index_reader, replay,
-                 search_view=None):
+                 search_view=None, config=None):
 
         self.index_reader = index_reader
 
@@ -40,9 +40,10 @@ class WBHandler(WbUrlHandler):
                                cdx_lines,
                                cdx_callback)
 
-    def render_search_page(self, wbrequest):
+    def render_search_page(self, wbrequest, **kwargs):
         if self.search_view:
-            return self.search_view.render_response(wbrequest=wbrequest)
+            return self.search_view.render_response(wbrequest=wbrequest,
+                                                    **kwargs)
         else:
             return WbResponse.text_response('No Lookup Url Specified')
 
diff --git a/pywb/webapp/pywb_init.py b/pywb/webapp/pywb_init.py
index bc942966..544433bd 100644
--- a/pywb/webapp/pywb_init.py
+++ b/pywb/webapp/pywb_init.py
@@ -85,10 +85,13 @@ def create_wb_handler(query_handler, config,
                         create_template(config.get('head_insert_html'),
                                        'Head Insert'))
 
+    defmod = config.get('default_mod', '')
+
     replayer = ReplayView(
         content_loader=resolving_loader,
 
-        content_rewriter=RewriteContent(ds_rules_file=ds_rules_file),
+        content_rewriter=RewriteContent(ds_rules_file=ds_rules_file,
+                                        defmod=defmod),
 
         head_insert_view=head_insert_view,
 
@@ -111,6 +114,7 @@ def create_wb_handler(query_handler, config,
         query_handler,
         replayer,
         search_view=search_view,
+        config=config,
     )
 
     return wb_handler

From cd017669ae26ae2524d0e3f516643e3857e595d2 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 23 Apr 2014 10:00:25 -0700
Subject: [PATCH 25/55] bugfix: ChunkedDataReader handles zero-length chunk
 properly, add test

---
 pywb/utils/bufferedreaders.py           | 2 +-
 pywb/utils/test/test_bufferedreaders.py | 4 ++++
 2 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/pywb/utils/bufferedreaders.py b/pywb/utils/bufferedreaders.py
index bfcffa40..04d706dd 100644
--- a/pywb/utils/bufferedreaders.py
+++ b/pywb/utils/bufferedreaders.py
@@ -221,7 +221,7 @@ class ChunkedDataReader(DecompressingBufferedReader):
         if not chunk_size:
             # chunk_size 0 indicates end of file
             self.all_chunks_read = True
-            #self._process_read('')
+            self._process_read('')
             return
 
         data_len = len(self._data)
diff --git a/pywb/utils/test/test_bufferedreaders.py b/pywb/utils/test/test_bufferedreaders.py
index d061218c..33d1fbd2 100644
--- a/pywb/utils/test/test_bufferedreaders.py
+++ b/pywb/utils/test/test_bufferedreaders.py
@@ -83,6 +83,10 @@ Chunked data cut off part way through:
 >>> c.read() + c.read()
 '123412'
 
+Zero-Length chunk:
+>>> ChunkedDataReader(BytesIO("0\r\n\r\n")).read()
+''
+
 Chunked data cut off with exceptions
 >>> c = ChunkedDataReader(BytesIO("4\r\n1234\r\n4\r\n12"), raise_exceptions=True)
 >>> c.read() + c.read()

From 53f0cb540f3c556c6327099105c45f891bfa1a76 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Thu, 24 Apr 2014 10:44:08 -0700
Subject: [PATCH 26/55] url rewriter: add optional 'full prefix', check and
 don't rewrite urls if starting with prefix or full prefix wbrequest: if no
 scheme present (shouldn't happen with wsgi) default to http

---
 pywb/framework/test/test_wbrequestresponse.py |  4 +--
 pywb/framework/wbrequestresponse.py           |  5 +--
 pywb/rewrite/test/test_url_rewriter.py        | 10 ++++--
 pywb/rewrite/url_rewriter.py                  | 33 ++++++++++++-------
 4 files changed, 35 insertions(+), 17 deletions(-)

diff --git a/pywb/framework/test/test_wbrequestresponse.py b/pywb/framework/test/test_wbrequestresponse.py
index 493ca0c2..e066d4d1 100644
--- a/pywb/framework/test/test_wbrequestresponse.py
+++ b/pywb/framework/test/test_wbrequestresponse.py
@@ -21,9 +21,9 @@
 >>> print_req_from_uri('/2010/example.com', {'wsgi.url_scheme': 'https', 'HTTP_HOST': 'localhost:8080'}, use_abs_prefix = True)
 {'wb_url': ('latest_replay', '', '', 'http://example.com', 'http://example.com'), 'coll': '2010', 'wb_prefix': 'https://localhost:8080/2010/', 'request_uri': '/2010/example.com'}
 
-# No Scheme, so stick to relative
+# No Scheme, default to http (shouldn't happen per WSGI standard)
 >>> print_req_from_uri('/2010/example.com', {'HTTP_HOST': 'localhost:8080'}, use_abs_prefix = True)
-{'wb_url': ('latest_replay', '', '', 'http://example.com', 'http://example.com'), 'coll': '2010', 'wb_prefix': '/2010/', 'request_uri': '/2010/example.com'}
+{'wb_url': ('latest_replay', '', '', 'http://example.com', 'http://example.com'), 'coll': '2010', 'wb_prefix': 'http://localhost:8080/2010/', 'request_uri': '/2010/example.com'}
 
 # Referrer extraction
 >>> WbUrl(req_from_uri('/web/2010/example.com', {'wsgi.url_scheme': 'http', 'HTTP_HOST': 'localhost:8080', 'HTTP_REFERER': 'http://localhost:8080/web/2011/blah.example.com/'}).extract_referrer_wburl_str()).url
diff --git a/pywb/framework/wbrequestresponse.py b/pywb/framework/wbrequestresponse.py
index 80156aff..446aa88a 100644
--- a/pywb/framework/wbrequestresponse.py
+++ b/pywb/framework/wbrequestresponse.py
@@ -23,7 +23,7 @@ class WbRequest(object):
             if not host:
                 host = env['SERVER_NAME'] + ':' + env['SERVER_PORT']
 
-            return env['wsgi.url_scheme'] + '://' + host
+            return env.get('wsgi.url_scheme', 'http') + '://' + host
         except KeyError:
             return ''
 
@@ -66,7 +66,8 @@ class WbRequest(object):
         # wb_url present and not root page
         if wb_url_str != '/' and wburl_class:
             self.wb_url = wburl_class(wb_url_str)
-            self.urlrewriter = urlrewriter_class(self.wb_url, self.wb_prefix)
+            self.urlrewriter = urlrewriter_class(self.wb_url, self.wb_prefix,
+                                                 host_prefix + rel_prefix)
         else:
         # no wb_url, just store blank wb_url
             self.wb_url = None
diff --git a/pywb/rewrite/test/test_url_rewriter.py b/pywb/rewrite/test/test_url_rewriter.py
index cc28a660..59669b96 100644
--- a/pywb/rewrite/test/test_url_rewriter.py
+++ b/pywb/rewrite/test/test_url_rewriter.py
@@ -24,6 +24,12 @@
 >>> do_rewrite('http://some-other-site.com', '20101226101112/http://example.com/index.html', 'localhost:8080/')
 'localhost:8080/20101226101112/http://some-other-site.com'
 
+>>> do_rewrite('http://localhost:8080/web/2014im_/http://some-other-site.com', 'http://example.com/index.html', '/web/', full_prefix='http://localhost:8080/web/')
+'http://localhost:8080/web/2014im_/http://some-other-site.com'
+
+>>> do_rewrite('/web/http://some-other-site.com', 'http://example.com/index.html', '/web/', full_prefix='http://localhost:8080/web/')
+'/web/http://some-other-site.com'
+
 >>> do_rewrite(r'http:\/\/some-other-site.com', '20101226101112/http://example.com/index.html', 'localhost:8080/')
 'localhost:8080/20101226101112/http:\\\\/\\\\/some-other-site.com'
 
@@ -62,8 +68,8 @@
 from pywb.rewrite.url_rewriter import UrlRewriter, HttpsUrlRewriter
 
 
-def do_rewrite(rel_url, base_url, prefix, mod = None):
-    rewriter = UrlRewriter(base_url, prefix)
+def do_rewrite(rel_url, base_url, prefix, mod=None, full_prefix=None):
+    rewriter = UrlRewriter(base_url, prefix, full_prefix=full_prefix)
     return rewriter.rewrite(rel_url, mod)
 
 
diff --git a/pywb/rewrite/url_rewriter.py b/pywb/rewrite/url_rewriter.py
index cb35607f..df4f32eb 100644
--- a/pywb/rewrite/url_rewriter.py
+++ b/pywb/rewrite/url_rewriter.py
@@ -16,9 +16,10 @@ class UrlRewriter(object):
 
     PROTOCOLS = ['http:', 'https:', 'ftp:', 'mms:', 'rtsp:', 'wais:']
 
-    def __init__(self, wburl, prefix):
+    def __init__(self, wburl, prefix, full_prefix=None):
         self.wburl = wburl if isinstance(wburl, WbUrl) else WbUrl(wburl)
         self.prefix = prefix
+        self.full_prefix = full_prefix
 
         #if self.prefix.endswith('/'):
         #    self.prefix = self.prefix[:-1]
@@ -28,33 +29,43 @@ class UrlRewriter(object):
         if any(url.startswith(x) for x in self.NO_REWRITE_URI_PREFIX):
             return url
 
+        if (self.prefix and
+            self.prefix != '/' and
+            url.startswith(self.prefix)):
+            return url
+
+        if (self.full_prefix and
+            self.full_prefix != self.prefix and
+            url.startswith(self.full_prefix)):
+            return url
+
         wburl = self.wburl
 
-        isAbs = any(url.startswith(x) for x in self.PROTOCOLS)
+        is_abs = any(url.startswith(x) for x in self.PROTOCOLS)
 
         if url.startswith('//'):
-            isAbs = True
+            is_abs = True
             url = 'http:' + url
 
         # Optimized rewriter for
         # -rel urls that don't start with / and
         # do not contain ../ and no special mod
-        if not (isAbs or mod or url.startswith('/') or ('../' in url)):
-            finalUrl = urlparse.urljoin(self.prefix + wburl.original_url, url)
+        if not (is_abs or mod or url.startswith('/') or ('../' in url)):
+            final_url = urlparse.urljoin(self.prefix + wburl.original_url, url)
 
         else:
             # optimize: join if not absolute url, otherwise just use that
-            if not isAbs:
-                newUrl = urlparse.urljoin(wburl.url, url).replace('../', '')
+            if not is_abs:
+                new_url = urlparse.urljoin(wburl.url, url).replace('../', '')
             else:
-                newUrl = url
+                new_url = url
 
             if mod is None:
                 mod = wburl.mod
 
-            finalUrl = self.prefix + wburl.to_str(mod=mod, url=newUrl)
+            final_url = self.prefix + wburl.to_str(mod=mod, url=new_url)
 
-        return finalUrl
+        return final_url
 
     def get_abs_url(self, url=''):
         return self.prefix + self.wburl.to_str(url=url)
@@ -85,7 +96,7 @@ class HttpsUrlRewriter(object):
     HTTP = 'http://'
     HTTPS = 'https://'
 
-    def __init__(self, wburl, prefix):
+    def __init__(self, wburl, prefix, full_prefix=None):
         pass
 
     def rewrite(self, url, mod=None):

From e4262502b01d637b01cfb86f4bab17c995795f0a Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 25 Apr 2014 10:30:22 -0700
Subject: [PATCH 27/55] fix ChunkedDataReader chunked + gzip decomp: if reading
 one chunk yields no data (due to more data being needed for gzip decomp),
 keep reading more blocks until there is data or last block is reached (or
 error). Ensure a single read() call will return some data if there is any

---
 pywb/utils/bufferedreaders.py           | 38 ++++++++++++++-----------
 pywb/utils/test/test_bufferedreaders.py |  9 ++++++
 2 files changed, 31 insertions(+), 16 deletions(-)

diff --git a/pywb/utils/bufferedreaders.py b/pywb/utils/bufferedreaders.py
index 04d706dd..ba0ffc0e 100644
--- a/pywb/utils/bufferedreaders.py
+++ b/pywb/utils/bufferedreaders.py
@@ -103,7 +103,8 @@ class DecompressingBufferedReader(object):
             return ''
 
         self._fillbuff()
-        return self.buff.read(length)
+        buff = self.buff.read(length)
+        return buff
 
     def readline(self, length=None):
         """
@@ -162,7 +163,9 @@ class DecompressingBufferedReader(object):
 
 #=================================================================
 class ChunkedDataException(Exception):
-    pass
+    def __init__(self, msg, data=''):
+        Exception.__init__(self, msg)
+        self.data = data
 
 
 #=================================================================
@@ -187,16 +190,17 @@ class ChunkedDataReader(DecompressingBufferedReader):
         if self.not_chunked:
             return super(ChunkedDataReader, self)._fillbuff(block_size)
 
-        if self.all_chunks_read:
-            return
-
-        if self.empty():
-            length_header = self.stream.readline(64)
-            self._data = ''
+        # Loop over chunks until there is some data (not empty())
+        # In particular, gzipped data may require multiple chunks to
+        # return any decompressed result
+        while (self.empty() and
+               not self.all_chunks_read and
+               not self.not_chunked):
 
             try:
+                length_header = self.stream.readline(64)
                 self._try_decode(length_header)
-            except ChunkedDataException:
+            except ChunkedDataException as e:
                 if self.raise_chunked_data_exceptions:
                     raise
 
@@ -204,7 +208,7 @@ class ChunkedDataReader(DecompressingBufferedReader):
                 # It's possible that non-chunked data is served
                 # with a Transfer-Encoding: chunked.
                 # Treat this as non-chunk encoded from here on.
-                self._process_read(length_header + self._data)
+                self._process_read(length_header + e.data)
                 self.not_chunked = True
 
                 # parse as block as non-chunked
@@ -224,7 +228,8 @@ class ChunkedDataReader(DecompressingBufferedReader):
             self._process_read('')
             return
 
-        data_len = len(self._data)
+        data_len = 0
+        data = ''
 
         # read chunk
         while data_len < chunk_size:
@@ -236,20 +241,21 @@ class ChunkedDataReader(DecompressingBufferedReader):
             if not new_data:
                 if self.raise_chunked_data_exceptions:
                     msg = 'Ran out of data before end of chunk'
-                    raise ChunkedDataException(msg)
+                    raise ChunkedDataException(msg, data)
                 else:
                     chunk_size = data_len
                     self.all_chunks_read = True
 
-            self._data += new_data
-            data_len = len(self._data)
+            data += new_data
+            data_len = len(data)
 
         # if we successfully read a block without running out,
         # it should end in \r\n
         if not self.all_chunks_read:
             clrf = self.stream.read(2)
             if clrf != '\r\n':
-                raise ChunkedDataException("Chunk terminator not found.")
+                raise ChunkedDataException("Chunk terminator not found.",
+                                           data)
 
         # hand to base class for further processing
-        self._process_read(self._data)
+        self._process_read(data)
diff --git a/pywb/utils/test/test_bufferedreaders.py b/pywb/utils/test/test_bufferedreaders.py
index 33d1fbd2..c764e09d 100644
--- a/pywb/utils/test/test_bufferedreaders.py
+++ b/pywb/utils/test/test_bufferedreaders.py
@@ -73,6 +73,15 @@ Non-chunked, compressed data
 >>> DecompressingBufferedReader(ChunkedDataReader(BytesIO(compress('\nABCDEF\nGHIJ')))).read()
 '\nABCDEF\nGHIJ'
 
+Chunked compressed data
+Split compressed stream into 10-byte chunk and a remainder chunk
+>>> b = compress('ABCDEFGHIJKLMNOP')
+>>> l = len(b)
+>>> in_ = format(10, 'x') + "\r\n" + b[:10] + "\r\n" + format(l - 10, 'x') + "\r\n" + b[10:] + "\r\n0\r\n\r\n"
+>>> c = ChunkedDataReader(BytesIO(in_), decomp_type='gzip')
+>>> c.read()
+'ABCDEFGHIJKLMNOP'
+
 Starts like chunked data, but isn't:
 >>> c = ChunkedDataReader(BytesIO("1\r\nxyz123!@#"));
 >>> c.read() + c.read()

From 2b8bea616e6dbd58bbd13e151953f10638e3e4c8 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 25 Apr 2014 10:52:35 -0700
Subject: [PATCH 28/55] when given a redis path of redis://<host>/<db>/<key>,
 use <key> as a sorted cdx file with zrangebylex!

modified tests but need zrangebylex() support in fakeredis to finish
---
 pywb/cdx/cdxsource.py              | 33 ++++++++++++++++++++++++------
 pywb/cdx/test/test_redis_source.py | 32 +++++++++++++++++++++++------
 2 files changed, 53 insertions(+), 12 deletions(-)

diff --git a/pywb/cdx/cdxsource.py b/pywb/cdx/cdxsource.py
index bf57209d..1bd3c158 100644
--- a/pywb/cdx/cdxsource.py
+++ b/pywb/cdx/cdxsource.py
@@ -94,22 +94,43 @@ class RedisCDXSource(CDXSource):
 
     def __init__(self, redis_url, config=None):
         import redis
+
+        parts = redis_url.split('/')
+        if len(parts) > 4:
+            self.cdx_key = parts[4]
+        else:
+            self.cdx_key = None
+
         self.redis_url = redis_url
         self.redis = redis.StrictRedis.from_url(redis_url)
 
         self.key_prefix = self.DEFAULT_KEY_PREFIX
-        if config:
-            self.key_prefix = config.get('redis_key_prefix', self.key_prefix)
 
     def load_cdx(self, query):
         """
         Load cdx from redis cache, from an ordered list
 
-        Currently, there is no support for range queries
-        Only 'exact' matchType is supported
-        """
-        key = query.key
+        If cdx_key is set, treat it as cdx file and load use
+        zrangebylex! (Supports all match types!)
 
+        Otherwise, assume a key per-url and load all entries for that key.
+        (Only exact match supported)
+        """
+
+        if self.cdx_key:
+            return self.load_sorted_range(query)
+        else:
+            return self.load_single_key(query.key)
+
+    def load_sorted_range(self, query):
+        cdx_list = self.redis.zrangebylex(self.cdx_key,
+                                          '[' + query.key,
+                                          '(' + query.end_key)
+
+        return cdx_list
+
+
+    def load_single_key(self, key):
         # ensure only url/surt is part of key
         key = key.split(' ')[0]
         cdx_list = self.redis.zrange(self.key_prefix + key, 0, -1)
diff --git a/pywb/cdx/test/test_redis_source.py b/pywb/cdx/test/test_redis_source.py
index e620811c..34abddf1 100644
--- a/pywb/cdx/test/test_redis_source.py
+++ b/pywb/cdx/test/test_redis_source.py
@@ -1,9 +1,12 @@
 """
->>> redis_cdx('http://example.com')
+>>> redis_cdx(redis_cdx_server, 'http://example.com')
 com,example)/ 20130729195151 http://test@example.com/ warc/revisit - B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 591 355 example-url-agnostic-revisit.warc.gz
 com,example)/ 20140127171200 http://example.com text/html 200 B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 1046 334 dupes.warc.gz
 com,example)/ 20140127171251 http://example.com warc/revisit - B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 553 11875 dupes.warc.gz
 
+
+>>> redis_cdx(redis_cdx_server_key, 'http://example.com')
+
 """
 
 from fakeredis import FakeStrictRedis
@@ -21,13 +24,17 @@ import os
 test_cdx_dir = get_test_dir() + 'cdx/'
 
 
-def load_cdx_into_redis(source, filename):
+def load_cdx_into_redis(source, filename, key=None):
     # load a cdx into mock redis
     with open(test_cdx_dir + filename) as fh:
         for line in fh:
-            zadd_cdx(source, line)
+            zadd_cdx(source, line, key)
+
+def zadd_cdx(source, cdx, key):
+    if key:
+        source.redis.zadd(key, 0, cdx)
+        return
 
-def zadd_cdx(source, cdx):
     parts = cdx.split(' ', 2)
 
     key = parts[0]
@@ -49,9 +56,22 @@ def init_redis_server():
 
     return CDXServer([source])
 
-def redis_cdx(url, **params):
+@patch('redis.StrictRedis', FakeStrictRedis)
+def init_redis_server_key_file():
+    source = RedisCDXSource('redis://127.0.0.1:6379/0/key')
+
+    for f in os.listdir(test_cdx_dir):
+        if f.endswith('.cdx'):
+            load_cdx_into_redis(source, f, source.cdx_key)
+
+    return CDXServer([source])
+
+
+def redis_cdx(cdx_server, url, **params):
     cdx_iter = cdx_server.load_cdx(url=url, **params)
     for cdx in cdx_iter:
         sys.stdout.write(cdx)
 
-cdx_server = init_redis_server()
+redis_cdx_server = init_redis_server()
+redis_cdx_server_key = init_redis_server_key_file()
+

From 58f261fda4f8a40d224aad92f4716cc8721fe0c9 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 25 Apr 2014 11:00:49 -0700
Subject: [PATCH 29/55] cdx redis: disable new test until fakeredis supports
 zrangebylex()

---
 pywb/cdx/test/test_redis_source.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/pywb/cdx/test/test_redis_source.py b/pywb/cdx/test/test_redis_source.py
index 34abddf1..9f5daa8d 100644
--- a/pywb/cdx/test/test_redis_source.py
+++ b/pywb/cdx/test/test_redis_source.py
@@ -4,8 +4,8 @@ com,example)/ 20130729195151 http://test@example.com/ warc/revisit - B2LTWWPUOYA
 com,example)/ 20140127171200 http://example.com text/html 200 B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 1046 334 dupes.warc.gz
 com,example)/ 20140127171251 http://example.com warc/revisit - B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 553 11875 dupes.warc.gz
 
-
->>> redis_cdx(redis_cdx_server_key, 'http://example.com')
+# TODO: enable when FakeRedis supports zrangebylex!
+#>>> redis_cdx(redis_cdx_server_key, 'http://example.com')
 
 """
 

From 09653cf77e16131bc39018b5e9714d34fce2c587 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sat, 26 Apr 2014 18:43:25 -0700
Subject: [PATCH 30/55] rewrite: more nuanced 'top' rewriting, fix wombat frame
 mode detection

---
 pywb/rewrite/regex_rewriters.py | 6 ++++--
 pywb/static/wombat.js           | 2 +-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/pywb/rewrite/regex_rewriters.py b/pywb/rewrite/regex_rewriters.py
index 2de788d7..a9328c51 100644
--- a/pywb/rewrite/regex_rewriters.py
+++ b/pywb/rewrite/regex_rewriters.py
@@ -127,8 +127,10 @@ class JSLinkAndLocationRewriter(JSLinkOnlyRewriter):
              (r'(?<!/)\blocation\b', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)domain', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)referrer', RegexRewriter.add_prefix(prefix), 0),
-             (r'(?<!/)\btop\b', RegexRewriter.add_prefix(prefix), 0),
-             #(r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
+
+             (r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
+             (r'\b(top)\b[!=\W]+(?:self|window)', RegexRewriter.add_prefix(prefix), 1),
+             (r'(?:self|window)[!=\W]+\b(top)\b', RegexRewriter.add_prefix(prefix), 1),
         ]
         #import sys
         #sys.stderr.write('\n\n*** RULES:' + str(rules) + '\n\n')
diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index 1792119e..b62c4b0f 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -553,7 +553,7 @@ WB_wombat_init = (function() {
             setInterval(check_all_locations, 500);
         }
         
-        var is_framed = (window.top.update_wb_url != undefined);
+        var is_framed = (window.top.wbinfo && window.top.wbinfo.is_frame);
 
         if (window.self.location != window.top.location) {
             if (is_framed) {

From 53ad67eb9c5a073d9b9eeb4cc4ec92ce4e0a8f10 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 27 Apr 2014 01:04:20 -0700
Subject: [PATCH 31/55] rewrite: disable one 'top' rewriting rule (should move
 to seperate mixin) views: add urlsplit jinja2 filter

---
 pywb/rewrite/regex_rewriters.py | 5 ++---
 pywb/webapp/views.py            | 9 ++++++++-
 2 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/pywb/rewrite/regex_rewriters.py b/pywb/rewrite/regex_rewriters.py
index a9328c51..b27402f4 100644
--- a/pywb/rewrite/regex_rewriters.py
+++ b/pywb/rewrite/regex_rewriters.py
@@ -128,12 +128,11 @@ class JSLinkAndLocationRewriter(JSLinkOnlyRewriter):
              (r'(?<=document\.)domain', RegexRewriter.add_prefix(prefix), 0),
              (r'(?<=document\.)referrer', RegexRewriter.add_prefix(prefix), 0),
 
+            #todo: move to mixin?
              (r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
              (r'\b(top)\b[!=\W]+(?:self|window)', RegexRewriter.add_prefix(prefix), 1),
-             (r'(?:self|window)[!=\W]+\b(top)\b', RegexRewriter.add_prefix(prefix), 1),
+             #(r'\b(?:self|window)\b[!=\W]+\b(top)\b', RegexRewriter.add_prefix(prefix), 1),
         ]
-        #import sys
-        #sys.stderr.write('\n\n*** RULES:' + str(rules) + '\n\n')
         super(JSLinkAndLocationRewriter, self).__init__(rewriter, rules)
 
 
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index abf71494..1724b7dd 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -48,7 +48,14 @@ def format_ts(value, format_='%a, %b %d %Y %H:%M:%S'):
 
 @template_filter('host')
 def get_hostname(url):
-    return urlparse.urlsplit(url).netloc
+    split = urlparse.urlsplit(url)
+    return split.netloc
+
+
+@template_filter('urlsplit')
+def get_urlsplit(url):
+    split = urlparse.urlsplit(url)
+    return split
 
 
 @template_filter()

From 9cf5327e887d31fcd94255120440fcffc9bfb8c6 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 28 Apr 2014 20:15:31 -0700
Subject: [PATCH 32/55] bufferedreader cleanup: * BufferedReader defaults to no
 decompression * DecompressingBufferedReader defaults to gzip decomp *
 ChunkedDataReader defaults to no gzip decomp, but decomp can be set later via
 set_decomp(). This allow chunked responses to be de-chunked but not
 decompressed (eg for non-text responses)

---
 pywb/rewrite/rewrite_content.py         |  7 +++++-
 pywb/utils/bufferedreaders.py           | 31 +++++++++++++++++++++----
 pywb/utils/test/test_bufferedreaders.py | 10 +++++---
 3 files changed, 39 insertions(+), 9 deletions(-)

diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index c62f39d9..6d4ced33 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -81,7 +81,12 @@ class RewriteContent:
 
         if (rewritten_headers.
              contains_removed_header('content-encoding', 'gzip')):
-            stream = DecompressingBufferedReader(stream, decomp_type='gzip')
+
+            #optimize: if already a ChunkedDataReader, add gzip
+            if isinstance(stream, ChunkedDataReader):
+                stream.set_decomp('gzip')
+            else:
+                stream = DecompressingBufferedReader(stream, decomp_type='gzip')
 
         if rewritten_headers.charset:
             encoding = rewritten_headers.charset
diff --git a/pywb/utils/bufferedreaders.py b/pywb/utils/bufferedreaders.py
index ba0ffc0e..7e461dee 100644
--- a/pywb/utils/bufferedreaders.py
+++ b/pywb/utils/bufferedreaders.py
@@ -11,7 +11,7 @@ def gzip_decompressor():
 
 
 #=================================================================
-class DecompressingBufferedReader(object):
+class BufferedReader(object):
     """
     A wrapping line reader which wraps an existing reader.
     Read operations operate on underlying buffer, which is filled to
@@ -20,9 +20,12 @@ class DecompressingBufferedReader(object):
     If an optional decompress type is specified,
     data is fed through the decompressor when read from the buffer.
     Currently supported decompression: gzip
+    If unspecified, default decompression is None
 
-    If decompression fails on first try, data is assumed to be decompressed
-    and no exception is thrown. If a failure occurs after data has been
+    If decompression is specified, and decompress fails on first try,
+    data is assumed to not be compressed and no exception is thrown.
+
+    If a failure occurs after data has been
     partially decompressed, the exception is propagated.
 
     """
@@ -30,7 +33,7 @@ class DecompressingBufferedReader(object):
     DECOMPRESSORS = {'gzip': gzip_decompressor}
 
     def __init__(self, stream, block_size=1024,
-                 decomp_type='gzip',
+                 decomp_type=None,
                  starting_data=None):
         self.stream = stream
         self.block_size = block_size
@@ -42,6 +45,12 @@ class DecompressingBufferedReader(object):
         self.num_read = 0
         self.buff_size = 0
 
+    def set_decomp(self, decomp_type):
+        if self.num_read > 0:
+            raise Exception('Attempting to change decompression mid-stream')
+
+        self._init_decomp(decomp_type)
+
     def _init_decomp(self, decomp_type):
         if decomp_type:
             try:
@@ -161,6 +170,18 @@ class DecompressingBufferedReader(object):
             self.stream = None
 
 
+#=================================================================
+class DecompressingBufferedReader(BufferedReader):
+    """
+    A BufferedReader which defaults to gzip decompression,
+    (unless different type specified)
+    """
+    def __init__(self, *args, **kwargs):
+        if 'decomp_type' not in kwargs:
+            kwargs['decomp_type'] = 'gzip'
+        super(DecompressingBufferedReader, self).__init__(*args, **kwargs)
+
+
 #=================================================================
 class ChunkedDataException(Exception):
     def __init__(self, msg, data=''):
@@ -169,7 +190,7 @@ class ChunkedDataException(Exception):
 
 
 #=================================================================
-class ChunkedDataReader(DecompressingBufferedReader):
+class ChunkedDataReader(BufferedReader):
     r"""
     A ChunkedDataReader is a DecompressingBufferedReader
     which also supports de-chunking of the data if it happens
diff --git a/pywb/utils/test/test_bufferedreaders.py b/pywb/utils/test/test_bufferedreaders.py
index c764e09d..cd5f3787 100644
--- a/pywb/utils/test/test_bufferedreaders.py
+++ b/pywb/utils/test/test_bufferedreaders.py
@@ -65,11 +65,15 @@ Non-chunked data:
 >>> ChunkedDataReader(BytesIO("xyz123!@#")).read()
 'xyz123!@#'
 
-Non-chunked, compressed data
->>> ChunkedDataReader(BytesIO(compress('ABCDEF'))).read()
+Non-chunked, compressed data, specify decomp_type
+>>> ChunkedDataReader(BytesIO(compress('ABCDEF')), decomp_type='gzip').read()
 'ABCDEF'
 
-Non-chunked, compressed data
+Non-chunked, compressed data, specifiy compression seperately
+>>> c = ChunkedDataReader(BytesIO(compress('ABCDEF'))); c.set_decomp('gzip'); c.read()
+'ABCDEF'
+
+Non-chunked, compressed data, wrap in DecompressingBufferedReader
 >>> DecompressingBufferedReader(ChunkedDataReader(BytesIO(compress('\nABCDEF\nGHIJ')))).read()
 '\nABCDEF\nGHIJ'
 

From 4c075d14afced41cf1541ea0e62f08e9ab933fbc Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Wed, 30 Apr 2014 21:16:05 -0700
Subject: [PATCH 33/55] views: actually encode template result as utf-8!

---
 pywb/webapp/views.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 1724b7dd..eb8a1901 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -105,7 +105,7 @@ class J2TemplateView:
         template_result = self.render_to_string(**kwargs)
         status = kwargs.get('status', '200 OK')
         content_type = 'text/html; charset=utf-8'
-        return WbResponse.text_response(str(template_result),
+        return WbResponse.text_response(template_result.encode('utf-8'),
                                         status=status,
                                         content_type=content_type)
 

From d2795dfdaaf0a212daf4fe205c86d50cfc4722db Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Thu, 1 May 2014 11:58:34 -0700
Subject: [PATCH 34/55] minor cleanup: wburl: add is_url_query() check views:
 add kwargs to J2HtmlCapturesView for better extensibility query_handler:
 simplify make_cdx_response() arguments

---
 pywb/rewrite/wburl.py        | 3 +++
 pywb/webapp/query_handler.py | 6 ++----
 pywb/webapp/views.py         | 7 ++++---
 3 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/pywb/rewrite/wburl.py b/pywb/rewrite/wburl.py
index c2ac9b23..3cd9ad72 100644
--- a/pywb/rewrite/wburl.py
+++ b/pywb/rewrite/wburl.py
@@ -63,6 +63,9 @@ class BaseWbUrl(object):
     def is_query(self):
         return self.is_query_type(self.type)
 
+    def is_url_query(self):
+        return (self.type == BaseWbUrl.URL_QUERY)
+
     @staticmethod
     def is_replay_type(type_):
         return (type_ == BaseWbUrl.REPLAY or
diff --git a/pywb/webapp/query_handler.py b/pywb/webapp/query_handler.py
index 172a7c3f..42c93806 100644
--- a/pywb/webapp/query_handler.py
+++ b/pywb/webapp/query_handler.py
@@ -71,7 +71,7 @@ class QueryHandler(object):
         if output != 'text' and wb_url.is_replay():
             return (cdx_iter, self.cdx_load_callback(wbrequest))
 
-        return self.make_cdx_response(wbrequest, params, cdx_iter)
+        return self.make_cdx_response(wbrequest, cdx_iter, params['output'])
 
     def load_cdx(self, wbrequest, params):
         if wbrequest:
@@ -90,9 +90,7 @@ class QueryHandler(object):
         cdx_iter = self.cdx_server.load_cdx(**params)
         return cdx_iter
 
-    def make_cdx_response(self, wbrequest, params, cdx_iter):
-        output = params['output']
-
+    def make_cdx_response(self, wbrequest, cdx_iter, output):
         # if not text, the iterator is assumed to be CDXObjects
         if output and output != 'text':
             view = self.views.get(output)
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index eb8a1901..1582f93d 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -72,7 +72,7 @@ def is_wb_handler(obj):
 
 
 #=================================================================
-class J2TemplateView:
+class J2TemplateView(object):
     env_globals = {'static_path': 'static/default',
                    'package': 'pywb'}
 
@@ -151,12 +151,13 @@ class HeadInsertView(J2TemplateView):
 # query views
 #=================================================================
 class J2HtmlCapturesView(J2TemplateView):
-    def render_response(self, wbrequest, cdx_lines):
+    def render_response(self, wbrequest, cdx_lines, **kwargs):
         return J2TemplateView.render_response(self,
                                     cdx_lines=list(cdx_lines),
                                     url=wbrequest.wb_url.url,
                                     type=wbrequest.wb_url.type,
-                                    prefix=wbrequest.wb_prefix)
+                                    prefix=wbrequest.wb_prefix,
+                                    **kwargs)
 
     @staticmethod
     def create_template(filename, desc=''):

From 46449ac1880fa0ba3348c3bafb33fc2e7b7e4bd3 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Mon, 5 May 2014 22:12:45 -0700
Subject: [PATCH 35/55] rewrite: pass wburl mod to rewritier, so that css/js
 rewriting rules may override default content-type (in cases where it is
 incorrect) allows for rule based cusomization (to be added later)

---
 pywb/rewrite/rewrite_content.py | 10 +++++++++-
 pywb/rewrite/rewrite_live.py    |  6 ++++--
 pywb/webapp/replay_views.py     |  3 ++-
 3 files changed, 15 insertions(+), 4 deletions(-)

diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index 6d4ced33..4abb1bd0 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -54,7 +54,7 @@ class RewriteContent:
 
     def rewrite_content(self, urlrewriter, headers, stream,
                         head_insert_func=None, urlkey='',
-                        sanitize_only=False, cdx=None):
+                        sanitize_only=False, cdx=None, mod=None):
 
         if sanitize_only:
             status_headers, stream = self.sanitize_content(headers, stream)
@@ -75,6 +75,14 @@ class RewriteContent:
         # special case -- need to ungzip the body
 
         text_type = rewritten_headers.text_type
+
+        # see known js/css modifier specified, the context should run
+        # default text_type
+        if mod == 'js_':
+            text_type = 'js'
+        elif mod == 'cs_':
+            text_type = 'css'
+
         stream_raw = False
         encoding = None
         first_buff = None
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index 4d0951ef..25733b94 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -98,7 +98,8 @@ class LiveRewriter(object):
                       req_headers={},
                       timestamp=None,
                       follow_redirects=False,
-                      proxies=None):
+                      proxies=None,
+                      mod=None):
 
         ts_err = url.split('///')
 
@@ -135,7 +136,8 @@ class LiveRewriter(object):
                                   stream,
                                   head_insert_func=head_insert_func,
                                   urlkey=urlkey,
-                                  cdx=cdx))
+                                  cdx=cdx,
+                                  mod=mod))
 
         return result
 
diff --git a/pywb/webapp/replay_views.py b/pywb/webapp/replay_views.py
index 7c0f1d7f..af50046e 100644
--- a/pywb/webapp/replay_views.py
+++ b/pywb/webapp/replay_views.py
@@ -125,7 +125,8 @@ class ReplayView(object):
                                   head_insert_func=head_insert_func,
                                   urlkey=cdx['urlkey'],
                                   sanitize_only=wbrequest.wb_url.is_identity,
-                                  cdx=cdx))
+                                  cdx=cdx,
+                                  mod=wbrequest.wb_url.mod))
 
         (status_headers, response_iter, is_rewritten) = result
 

From e7957a5cae85e509130cec8201540a5b4191bba3 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 6 May 2014 20:54:42 -0700
Subject: [PATCH 36/55] remove SeekableTextFileReader, replaced with standard
 file-like objects and seek(0, 2) and tell() to get file length

---
 pywb/cdx/cdxsource.py             |  3 +--
 pywb/cdx/zipnum.py                |  3 +--
 pywb/utils/binsearch.py           |  4 +++-
 pywb/utils/loaders.py             | 31 -------------------------------
 pywb/utils/test/test_binsearch.py | 16 ++++++----------
 pywb/utils/test/test_loaders.py   | 14 +-------------
 pywb/warc/pathresolvers.py        |  3 +--
 7 files changed, 13 insertions(+), 61 deletions(-)

diff --git a/pywb/cdx/cdxsource.py b/pywb/cdx/cdxsource.py
index 1bd3c158..71742041 100644
--- a/pywb/cdx/cdxsource.py
+++ b/pywb/cdx/cdxsource.py
@@ -1,5 +1,4 @@
 from pywb.utils.binsearch import iter_range
-from pywb.utils.loaders import SeekableTextFileReader
 
 from pywb.utils.wbexception import AccessException, NotFoundException
 from pywb.utils.wbexception import BadRequestException, WbException
@@ -29,7 +28,7 @@ class CDXFile(CDXSource):
         self.filename = filename
 
     def load_cdx(self, query):
-        source = SeekableTextFileReader(self.filename)
+        source = open(self.filename)
         return iter_range(source, query.key, query.end_key)
 
     def __str__(self):
diff --git a/pywb/cdx/zipnum.py b/pywb/cdx/zipnum.py
index e282dfc0..071319a5 100644
--- a/pywb/cdx/zipnum.py
+++ b/pywb/cdx/zipnum.py
@@ -9,7 +9,6 @@ from cdxsource import CDXSource
 from cdxobject import IDXObject
 
 from pywb.utils.loaders import BlockLoader
-from pywb.utils.loaders import SeekableTextFileReader
 from pywb.utils.bufferedreaders import gzip_decompressor
 from pywb.utils.binsearch import iter_range, linearsearch
 
@@ -113,7 +112,7 @@ class ZipNumCluster(CDXSource):
     def load_cdx(self, query):
         self.load_loc()
 
-        reader = SeekableTextFileReader(self.summary)
+        reader = open(self.summary)
 
         idx_iter = iter_range(reader,
                               query.key,
diff --git a/pywb/utils/binsearch.py b/pywb/utils/binsearch.py
index 7d939c18..4e3b506c 100644
--- a/pywb/utils/binsearch.py
+++ b/pywb/utils/binsearch.py
@@ -16,7 +16,9 @@ def binsearch_offset(reader, key, compare_func=cmp, block_size=8192):
     Optional compare_func may be specified
     """
     min_ = 0
-    max_ = reader.getsize() / block_size
+
+    reader.seek(0, 2)
+    max_ = reader.tell() / block_size
 
     while max_ - min_ > 1:
         mid = min_ + ((max_ - min_) / 2)
diff --git a/pywb/utils/loaders.py b/pywb/utils/loaders.py
index f86e4072..a1d12d27 100644
--- a/pywb/utils/loaders.py
+++ b/pywb/utils/loaders.py
@@ -198,34 +198,3 @@ class LimitReader(object):
             pass
 
         return stream
-
-
-#=================================================================
-# Local text file with known size -- used for binsearch
-#=================================================================
-class SeekableTextFileReader(object):
-    """
-    A very simple file-like object wrapper that knows it's total size,
-    via getsize()
-    Supports seek() operation.
-    Assumed to be a text file. Used for binsearch.
-    """
-    def __init__(self, filename):
-        self.fh = open(filename, 'rb')
-        self.filename = filename
-        self.size = os.path.getsize(filename)
-
-    def getsize(self):
-        return self.size
-
-    def read(self, length=None):
-        return self.fh.read(length)
-
-    def readline(self, length=None):
-        return self.fh.readline(length)
-
-    def seek(self, offset):
-        return self.fh.seek(offset)
-
-    def close(self):
-        return self.fh.close()
diff --git a/pywb/utils/test/test_binsearch.py b/pywb/utils/test/test_binsearch.py
index 40ea1f58..c599377e 100644
--- a/pywb/utils/test/test_binsearch.py
+++ b/pywb/utils/test/test_binsearch.py
@@ -59,7 +59,6 @@ org,iana)/about 20140126200706 http://www.iana.org/about text/html 200 6G77LZKFA
 #=================================================================
 import os
 from pywb.utils.binsearch import iter_prefix, iter_exact, iter_range
-from pywb.utils.loaders import SeekableTextFileReader
 
 from pywb import get_test_dir
 
@@ -67,17 +66,14 @@ from pywb import get_test_dir
 test_cdx_dir = get_test_dir() + 'cdx/'
 
 def print_binsearch_results(key, iter_func):
-    cdx =  SeekableTextFileReader(test_cdx_dir + 'iana.cdx')
-
-    for line in iter_func(cdx, key):
-        print line
-
+    with open(test_cdx_dir + 'iana.cdx') as cdx:
+        for line in iter_func(cdx, key):
+            print line
 
 def print_binsearch_results_range(key, end_key, iter_func, prev_size=0):
-    cdx =  SeekableTextFileReader(test_cdx_dir + 'iana.cdx')
-
-    for line in iter_func(cdx, key, end_key, prev_size=prev_size):
-        print line
+    with open(test_cdx_dir + 'iana.cdx') as cdx:
+        for line in iter_func(cdx, key, end_key, prev_size=prev_size):
+            print line
 
 
 if __name__ == "__main__":
diff --git a/pywb/utils/test/test_loaders.py b/pywb/utils/test/test_loaders.py
index 88368146..b64f2419 100644
--- a/pywb/utils/test/test_loaders.py
+++ b/pywb/utils/test/test_loaders.py
@@ -39,18 +39,6 @@ True
 # test with extra id, ensure 4 parts of the A-B=C-D form are present
 >>> len(re.split('[-=]', HMACCookieMaker('test', 'test', 5).make('extra')))
 4
-
-# SeekableTextFileReader Test
->>> sr = SeekableTextFileReader(test_cdx_dir + 'iana.cdx')
->>> sr.getsize()
-30399
-
->>> seek_read_full(sr, 100)
-'org,iana)/_css/2013.1/fonts/inconsolata.otf 20140126200826 http://www.iana.org/_css/2013.1/fonts/Inconsolata.otf application/octet-stream 200 LNMEDYOENSOEI5VPADCKL3CB6N3GWXPR - - 34054 620049 iana.warc.gz\\n'
-
-# seek, read, close
->>> r = sr.seek(0); sr.read(10); sr.close()
-' CDX N b a'
 """
 
 
@@ -58,7 +46,7 @@ True
 import re
 from io import BytesIO
 from pywb.utils.loaders import BlockLoader, HMACCookieMaker
-from pywb.utils.loaders import LimitReader, SeekableTextFileReader
+from pywb.utils.loaders import LimitReader
 
 from pywb import get_test_dir
 
diff --git a/pywb/warc/pathresolvers.py b/pywb/warc/pathresolvers.py
index 5419eeb9..469fbfb1 100644
--- a/pywb/warc/pathresolvers.py
+++ b/pywb/warc/pathresolvers.py
@@ -1,7 +1,6 @@
 import redis
 
 from pywb.utils.binsearch import iter_exact
-from pywb.utils.loaders import SeekableTextFileReader
 
 import urlparse
 import os
@@ -57,7 +56,7 @@ class RedisResolver:
 class PathIndexResolver:
     def __init__(self, pathindex_file):
         self.pathindex_file = pathindex_file
-        self.reader = SeekableTextFileReader(pathindex_file)
+        self.reader = open(pathindex_file)
 
     def __call__(self, filename):
         result = iter_exact(self.reader, filename, '\t')

From 89da16546717e61638a91a3365958f4c23ea7a6a Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 13 May 2014 01:54:12 -0700
Subject: [PATCH 37/55] exceptions: add optional url param to WbException, move
 handler_exception() into WSGIApp for easier customization

---
 pywb/framework/wsgi_wrappers.py | 59 ++++++++++++++++++---------------
 pywb/utils/wbexception.py       |  4 +++
 2 files changed, 36 insertions(+), 27 deletions(-)

diff --git a/pywb/framework/wsgi_wrappers.py b/pywb/framework/wsgi_wrappers.py
index 7401f89e..837a7c74 100644
--- a/pywb/framework/wsgi_wrappers.py
+++ b/pywb/framework/wsgi_wrappers.py
@@ -62,45 +62,50 @@ class WSGIApp(object):
             response = wb_router(env)
 
             if not response:
-                msg = 'No handler for "{0}"'.format(env['REL_REQUEST_URI'])
+                msg = 'No handler for "{0}".'.format(env['REL_REQUEST_URI'])
                 raise NotFoundException(msg)
 
         except WbException as e:
-            response = handle_exception(env, wb_router, e, False)
+            response = self.handle_exception(env, e, False)
 
         except Exception as e:
-            response = handle_exception(env, wb_router, e, True)
+            response = self.handle_exception(env, e, True)
 
         return response(env, start_response)
 
+    def handle_exception(self, env, exc, print_trace):
+        error_view = None
 
-#=================================================================
-def handle_exception(env, wb_router, exc, print_trace):
-    error_view = None
-    if hasattr(wb_router, 'error_view'):
-        error_view = wb_router.error_view
+        if hasattr(self.wb_router, 'error_view'):
+            error_view = self.wb_router.error_view
 
-    if hasattr(exc, 'status'):
-        status = exc.status()
-    else:
-        status = '400 Bad Request'
+        if hasattr(exc, 'status'):
+            status = exc.status()
+        else:
+            status = '400 Bad Request'
 
-    if print_trace:
-        import traceback
-        err_details = traceback.format_exc(exc)
-        print err_details
-    else:
-        logging.info(str(exc))
-        err_details = None
+        if hasattr(exc, 'url'):
+            err_url = exc.url
+        else:
+            err_url = None
 
-    if error_view:
-        import traceback
-        return error_view.render_response(err_msg=str(exc),
-                                          err_details=err_details,
-                                          status=status)
-    else:
-        return WbResponse.text_response(status + ' Error: ' + str(exc),
-                                        status=status)
+        if print_trace:
+            import traceback
+            err_details = traceback.format_exc(exc)
+            print err_details
+        else:
+            logging.info(str(exc))
+            err_details = None
+
+        if error_view:
+            return error_view.render_response(exc_type=type(exc).__name__,
+                                              err_msg=str(exc),
+                                              err_details=err_details,
+                                              status=status,
+                                              err_url=err_url)
+        else:
+            return WbResponse.text_response(status + ' Error: ' + str(exc),
+                                            status=status)
 
 #=================================================================
 DEFAULT_CONFIG_FILE = 'config.yaml'
diff --git a/pywb/utils/wbexception.py b/pywb/utils/wbexception.py
index c230abc1..b94a6313 100644
--- a/pywb/utils/wbexception.py
+++ b/pywb/utils/wbexception.py
@@ -2,6 +2,10 @@
 
 #=================================================================
 class WbException(Exception):
+    def __init__(self, msg=None, url=None):
+        Exception.__init__(self, msg)
+        self.url = url
+
     def status(self):
         return '500 Internal Server Error'
 

From 871cc26fa48aac150cc596f332bdeb1f89141830 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 13 May 2014 17:07:41 -0700
Subject: [PATCH 38/55] rewrite: add optional cookie_rewriter, created by
 urlrewriter and called from header_rewriter cookie_rewriter works correctly
 with a concatenated set-cookie list, returns a list of rewritten 'set-cookie'
 headers rewrite_live: add proxying of Host, Origin, additional headers split
 header rewriter tests into test_header_rewriter, add test_cookie_rewriter
 bump version to 0.4.0!

---
 README.rst                                |  2 +-
 pywb/rewrite/cookie_rewriter.py           | 29 ++++++++
 pywb/rewrite/header_rewriter.py           |  9 +++
 pywb/rewrite/rewrite_live.py              | 25 ++++++-
 pywb/rewrite/test/test_cookie_rewriter.py | 25 +++++++
 pywb/rewrite/test/test_header_rewriter.py | 80 +++++++++++++++++++++++
 pywb/rewrite/test/test_regex_rewriters.py | 56 +---------------
 pywb/rewrite/test/test_rewrite_live.py    | 14 ++++
 pywb/rewrite/url_rewriter.py              |  7 ++
 setup.py                                  |  2 +-
 10 files changed, 190 insertions(+), 59 deletions(-)
 create mode 100644 pywb/rewrite/cookie_rewriter.py
 create mode 100644 pywb/rewrite/test/test_cookie_rewriter.py
 create mode 100644 pywb/rewrite/test/test_header_rewriter.py

diff --git a/README.rst b/README.rst
index f9fc0fc2..2132040f 100644
--- a/README.rst
+++ b/README.rst
@@ -1,4 +1,4 @@
-PyWb 0.3.1
+PyWb 0.4.0 Beta
 =============
 
 .. image:: https://travis-ci.org/ikreymer/pywb.png?branch=develop
diff --git a/pywb/rewrite/cookie_rewriter.py b/pywb/rewrite/cookie_rewriter.py
new file mode 100644
index 00000000..070912d9
--- /dev/null
+++ b/pywb/rewrite/cookie_rewriter.py
@@ -0,0 +1,29 @@
+import Cookie
+
+
+#=================================================================
+class WbUrlCookieRewriter(object):
+    """ Cookie rewriter for wburl-based requests
+    Remove the domain and rewrite path, if any, to match
+    given WbUrl using the url rewriter.
+    """
+    def __init__(self, url_rewriter):
+        self.url_rewriter = url_rewriter
+
+    def rewrite(self, cookie_str, header='Set-Cookie'):
+        cookie = Cookie.SimpleCookie()
+        cookie.load(cookie_str)
+
+        results = []
+
+        for name, morsel in cookie.iteritems():
+            if morsel.get('domain'):
+                del morsel['domain']
+            if morsel.get('path'):
+                morsel['path'] = self.url_rewriter.rewrite(morsel['path'])
+            if morsel.get('expires'):
+                del morsel['expires']
+
+            results.append((header, morsel.OutputString()))
+
+        return results
diff --git a/pywb/rewrite/header_rewriter.py b/pywb/rewrite/header_rewriter.py
index 93b007de..25b27de4 100644
--- a/pywb/rewrite/header_rewriter.py
+++ b/pywb/rewrite/header_rewriter.py
@@ -39,6 +39,8 @@ class HeaderRewriter:
 
     PROXY_NO_REWRITE_HEADERS = ['content-length']
 
+    COOKIE_HEADERS = ['set-cookie', 'cookie']
+
     def __init__(self, header_prefix='X-Archive-Orig-'):
         self.header_prefix = header_prefix
 
@@ -86,6 +88,8 @@ class HeaderRewriter:
         new_headers = []
         removed_header_dict = {}
 
+        cookie_rewriter = urlrewriter.get_cookie_rewriter()
+
         for (name, value) in headers:
 
             lowername = name.lower()
@@ -109,6 +113,11 @@ class HeaderRewriter:
                   not content_rewritten):
                 new_headers.append((name, value))
 
+            elif (lowername in self.COOKIE_HEADERS and
+                  cookie_rewriter):
+                cookie_list = cookie_rewriter.rewrite(value)
+                new_headers.extend(cookie_list)
+
             else:
                 new_headers.append((self.header_prefix + name, value))
 
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index 25733b94..bf3c5f08 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -6,7 +6,9 @@ import requests
 import datetime
 import mimetypes
 
-from pywb.utils.loaders import is_http
+from urlparse import urlsplit
+
+from pywb.utils.loaders import is_http, LimitReader
 from pywb.utils.timeutils import datetime_to_timestamp
 from pywb.utils.statusandheaders import StatusAndHeaders
 from pywb.utils.canonicalize import canonicalize
@@ -23,6 +25,12 @@ class LiveRewriter(object):
                          ('HTTP_ACCEPT_CHARSET', 'Accept-Charset'),
                          ('HTTP_ACCEPT_ENCODING', 'Accept-Encoding'),
                          ('HTTP_RANGE', 'Range'),
+                         ('HTTP_CACHE_CONTROL', 'Cache-Control'),
+                         ('HTTP_X_REQUESTED_WITH', 'X-Requested-With'),
+                         ('HTTP_X_CSRF_TOKEN', 'X-CSRF-Token'),
+                         ('HTTP_COOKIE', 'Cookie'),
+                         ('CONTENT_TYPE', 'Content-Type'),
+                         ('CONTENT_LENGTH', 'Content-Length'),
                          ('REL_REFERER', 'Referer'),
                         ]
 
@@ -67,10 +75,23 @@ class LiveRewriter(object):
             method = env['REQUEST_METHOD'].upper()
             input_ = env['wsgi.input']
 
+            host = env.get('HTTP_HOST')
+            origin = env.get('HTTP_ORIGIN')
+            if host or origin:
+                splits = urlsplit(url)
+                if host:
+                    req_headers['Host'] = splits.netloc
+                if origin:
+                    req_headers['Origin'] = (splits.scheme + '://' + splits.netloc)
+
             req_headers.update(self.translate_headers(env))
 
             if method in ('POST', 'PUT'):
-                data = input_
+                len_ = env.get('CONTENT_LENGTH')
+                if len_:
+                    data = LimitReader(input_, int(len_))
+                else:
+                    data = input_
 
         response = requests.request(method=method,
                                     url=url,
diff --git a/pywb/rewrite/test/test_cookie_rewriter.py b/pywb/rewrite/test/test_cookie_rewriter.py
new file mode 100644
index 00000000..620248cd
--- /dev/null
+++ b/pywb/rewrite/test/test_cookie_rewriter.py
@@ -0,0 +1,25 @@
+r"""
+# No rewriting
+>>> rewrite_cookie('a=b; c=d;')
+[('Set-Cookie', 'a=b'), ('Set-Cookie', 'c=d')]
+
+>>> rewrite_cookie('some=value; Domain=foo.com; Path=/;')
+[('Set-Cookie', 'some=value; Path=/pywb/20131226101010/http://example.com/')]
+
+>>> rewrite_cookie('some=value; Domain=foo.com; Path=/diff/path/;')
+[('Set-Cookie', 'some=value; Path=/pywb/20131226101010/http://example.com/diff/path/')]
+
+>>> rewrite_cookie('abc=def; Path=file.html; Expires=Wed, 13 Jan 2021 22:23:01 GMT')
+[('Set-Cookie', 'abc=def; Path=/pywb/20131226101010/http://example.com/some/path/file.html')]
+
+"""
+
+
+from pywb.rewrite.cookie_rewriter import WbUrlCookieRewriter
+from pywb.rewrite.url_rewriter import UrlRewriter
+
+urlrewriter = UrlRewriter('20131226101010/http://example.com/some/path/index.html', '/pywb/')
+
+def rewrite_cookie(cookie_str):
+    return WbUrlCookieRewriter(urlrewriter).rewrite(cookie_str)
+
diff --git a/pywb/rewrite/test/test_header_rewriter.py b/pywb/rewrite/test/test_header_rewriter.py
new file mode 100644
index 00000000..de772244
--- /dev/null
+++ b/pywb/rewrite/test/test_header_rewriter.py
@@ -0,0 +1,80 @@
+"""
+#=================================================================
+HTTP Headers Rewriting
+#=================================================================
+
+# Text with charset
+>>> _test_headers([('Date', 'Fri, 03 Jan 2014 03:03:21 GMT'), ('Content-Length', '5'), ('Content-Type', 'text/html;charset=UTF-8')])
+{'charset': 'utf-8',
+ 'removed_header_dict': {},
+ 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Date', 'Fri, 03 Jan 2014 03:03:21 GMT'),
+  ('X-Archive-Orig-Content-Length', '5'),
+  ('Content-Type', 'text/html;charset=UTF-8')]),
+ 'text_type': 'html'}
+
+# Redirect
+>>> _test_headers([('Connection', 'close'), ('Location', '/other.html')], '302 Redirect')
+{'charset': None,
+ 'removed_header_dict': {},
+ 'status_headers': StatusAndHeaders(protocol = '', statusline = '302 Redirect', headers = [ ('X-Archive-Orig-Connection', 'close'),
+  ('Location', '/web/20131010/http://example.com/other.html')]),
+ 'text_type': None}
+
+# cookie, host/origin rewriting
+>>> _test_headers([('Connection', 'close'), ('Set-Cookie', 'foo=bar; Path=/; Domain=.example.com, abc=def; Path=somefile.html'), ('Host', 'example.com'), ('Origin', 'https://example.com')])
+{'charset': None,
+ 'removed_header_dict': {},
+ 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Connection', 'close'),
+  ('Set-Cookie', 'foo=bar; Path=/web/20131010/http://example.com/'),
+  ( 'Set-Cookie',
+    'abc=def; Path=/web/20131010/http://example.com/somefile.html'),
+  ('X-Archive-Orig-Host', 'example.com'),
+  ('X-Archive-Orig-Origin', 'https://example.com')]),
+ 'text_type': None}
+
+
+
+# gzip
+>>> _test_headers([('Content-Length', '199999'), ('Content-Type', 'text/javascript'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
+{'charset': None,
+ 'removed_header_dict': {'content-encoding': 'gzip',
+                         'transfer-encoding': 'chunked'},
+ 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Content-Length', '199999'),
+  ('Content-Type', 'text/javascript')]),
+ 'text_type': 'js'}
+
+# Binary -- transfer-encoding removed
+>>> _test_headers([('Content-Length', '200000'), ('Content-Type', 'image/png'), ('Set-Cookie', 'foo=bar; Path=/; Domain=.example.com'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
+{'charset': None,
+ 'removed_header_dict': {'transfer-encoding': 'chunked'},
+ 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('Content-Length', '200000'),
+  ('Content-Type', 'image/png'),
+  ('Set-Cookie', 'foo=bar; Path=/web/20131010/http://example.com/'),
+  ('Content-Encoding', 'gzip')]),
+ 'text_type': None}
+
+"""
+
+
+
+from pywb.rewrite.header_rewriter import HeaderRewriter
+from pywb.rewrite.url_rewriter import UrlRewriter
+from pywb.utils.statusandheaders import StatusAndHeaders
+
+import pprint
+
+urlrewriter = UrlRewriter('20131010/http://example.com/', '/web/')
+
+
+headerrewriter = HeaderRewriter()
+
+def _test_headers(headers, status = '200 OK'):
+    rewritten = headerrewriter.rewrite(StatusAndHeaders(status, headers), urlrewriter)
+    return pprint.pprint(vars(rewritten))
+
+
+if __name__ == "__main__":
+    import doctest
+    doctest.testmod()
+
+
diff --git a/pywb/rewrite/test/test_regex_rewriters.py b/pywb/rewrite/test/test_regex_rewriters.py
index 17bf0a75..cbd2cb21 100644
--- a/pywb/rewrite/test/test_regex_rewriters.py
+++ b/pywb/rewrite/test/test_regex_rewriters.py
@@ -116,61 +116,13 @@ r"""
 >>> _test_css("@import url(/url.css)\n@import  url(/anotherurl.css)\n @import  url(/and_a_third.css)")
 '@import url(/web/20131010em_/http://example.com/url.css)\n@import  url(/web/20131010em_/http://example.com/anotherurl.css)\n @import  url(/web/20131010em_/http://example.com/and_a_third.css)'
 
-#=================================================================
-HTTP Headers Rewriting
-#=================================================================
-
-# Text with charset
->>> _test_headers([('Date', 'Fri, 03 Jan 2014 03:03:21 GMT'), ('Content-Length', '5'), ('Content-Type', 'text/html;charset=UTF-8')])
-{'charset': 'utf-8',
- 'removed_header_dict': {},
- 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Date', 'Fri, 03 Jan 2014 03:03:21 GMT'),
-  ('X-Archive-Orig-Content-Length', '5'),
-  ('Content-Type', 'text/html;charset=UTF-8')]),
- 'text_type': 'html'}
-
-# Redirect
->>> _test_headers([('Connection', 'close'), ('Location', '/other.html')], '302 Redirect')
-{'charset': None,
- 'removed_header_dict': {},
- 'status_headers': StatusAndHeaders(protocol = '', statusline = '302 Redirect', headers = [ ('X-Archive-Orig-Connection', 'close'),
-  ('Location', '/web/20131010/http://example.com/other.html')]),
- 'text_type': None}
-
-# gzip
->>> _test_headers([('Content-Length', '199999'), ('Content-Type', 'text/javascript'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
-{'charset': None,
- 'removed_header_dict': {'content-encoding': 'gzip',
-                         'transfer-encoding': 'chunked'},
- 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Content-Length', '199999'),
-  ('Content-Type', 'text/javascript')]),
- 'text_type': 'js'}
-
-# Binary
->>> _test_headers([('Content-Length', '200000'), ('Content-Type', 'image/png'), ('Cookie', 'blah'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
-{'charset': None,
- 'removed_header_dict': {'transfer-encoding': 'chunked'},
- 'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('Content-Length', '200000'),
-  ('Content-Type', 'image/png'),
-  ('X-Archive-Orig-Cookie', 'blah'),
-  ('Content-Encoding', 'gzip')]),
- 'text_type': None}
-
-Removing Transfer-Encoding always, Was:
-  ('Content-Encoding', 'gzip'),
-  ('Transfer-Encoding', 'chunked')]), 'charset': None, 'text_type': None, 'removed_header_dict': {}}
-
-
 """
 
+
 #=================================================================
 from pywb.rewrite.url_rewriter import UrlRewriter
 from pywb.rewrite.regex_rewriters import RegexRewriter, JSRewriter, CSSRewriter, XMLRewriter
-from pywb.rewrite.header_rewriter import HeaderRewriter
 
-from pywb.utils.statusandheaders import StatusAndHeaders
-
-import pprint
 
 urlrewriter = UrlRewriter('20131010/http://example.com/', '/web/')
 
@@ -184,12 +136,6 @@ def _test_xml(string):
 def _test_css(string):
     return CSSRewriter(urlrewriter).rewrite(string)
 
-headerrewriter = HeaderRewriter()
-
-def _test_headers(headers, status = '200 OK'):
-    rewritten = headerrewriter.rewrite(StatusAndHeaders(status, headers), urlrewriter)
-    return pprint.pprint(vars(rewritten))
-
 
 if __name__ == "__main__":
     import doctest
diff --git a/pywb/rewrite/test/test_rewrite_live.py b/pywb/rewrite/test/test_rewrite_live.py
index 1e8fa25e..938c9ee1 100644
--- a/pywb/rewrite/test/test_rewrite_live.py
+++ b/pywb/rewrite/test/test_rewrite_live.py
@@ -3,6 +3,8 @@ from pywb.rewrite.url_rewriter import UrlRewriter
 
 from pywb import get_test_dir
 
+from io import BytesIO
+
 # This module has some rewriting tests against the 'live web'
 # As such, the content may change and the test may break
 
@@ -81,5 +83,17 @@ def test_example_domain_specific_3():
     assert '/* Bootloader.configurePage' in buff
 
 
+def test_post():
+    buff = BytesIO('ABCDEF')
+
+    env = {'REQUEST_METHOD': 'POST',
+           'HTTP_ORIGIN': 'http://example.com',
+           'HTTP_HOST': 'example.com',
+           'wsgi.input': buff}
+
+    status_headers, resp_buff = get_rewritten('http://example.com/', urlrewriter, env=env)
+    assert status_headers.get_statuscode() == '200', status_headers
+
+
 def get_rewritten(*args, **kwargs):
     return LiveRewriter().get_rewritten(*args, **kwargs)
diff --git a/pywb/rewrite/url_rewriter.py b/pywb/rewrite/url_rewriter.py
index df4f32eb..843e665e 100644
--- a/pywb/rewrite/url_rewriter.py
+++ b/pywb/rewrite/url_rewriter.py
@@ -2,6 +2,7 @@ import copy
 import urlparse
 
 from wburl import WbUrl
+from cookie_rewriter import WbUrlCookieRewriter
 
 
 #=================================================================
@@ -82,6 +83,9 @@ class UrlRewriter(object):
         new_wburl.url = new_url
         return UrlRewriter(new_wburl, self.prefix)
 
+    def get_cookie_rewriter(self):
+        return WbUrlCookieRewriter(self)
+
     def __repr__(self):
         return "UrlRewriter('{0}', '{1}')".format(self.wburl, self.prefix)
 
@@ -114,3 +118,6 @@ class HttpsUrlRewriter(object):
 
     def rebase_rewriter(self, new_url):
         return self
+
+    def get_cookie_rewriter(self):
+        return None
diff --git a/setup.py b/setup.py
index 91279b4f..c33471fd 100755
--- a/setup.py
+++ b/setup.py
@@ -34,7 +34,7 @@ class PyTest(TestCommand):
 
 setup(
     name='pywb',
-    version='0.3.1',
+    version='0.4.0',
     url='https://github.com/ikreymer/pywb',
     author='Ilya Kreymer',
     author_email='ikreymer@gmail.com',

From 1d8c68b7457c83f180cd41a839695622a3c2e29c Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Tue, 13 May 2014 17:42:55 -0700
Subject: [PATCH 39/55] rewrite: only translate non-empty header values

---
 pywb/rewrite/rewrite_live.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index bf3c5f08..a14e61f8 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -57,7 +57,7 @@ class LiveRewriter(object):
 
         for env_name, req_name in header_list:
             value = env.get(env_name)
-            if value is not None:
+            if value:
                 headers[req_name] = value
 
         return headers

From 5285723ccf9b2797e6f4f43fb956e04eed0a71bd Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Thu, 15 May 2014 22:37:08 -0700
Subject: [PATCH 40/55] cookie_rewriter: catch CookieError and ignore erroring
 cookies

---
 pywb/rewrite/cookie_rewriter.py           | 10 ++++++----
 pywb/rewrite/test/test_cookie_rewriter.py |  4 ++++
 2 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/pywb/rewrite/cookie_rewriter.py b/pywb/rewrite/cookie_rewriter.py
index 070912d9..c9c7e8b5 100644
--- a/pywb/rewrite/cookie_rewriter.py
+++ b/pywb/rewrite/cookie_rewriter.py
@@ -1,4 +1,4 @@
-import Cookie
+from Cookie import SimpleCookie, CookieError
 
 
 #=================================================================
@@ -11,10 +11,12 @@ class WbUrlCookieRewriter(object):
         self.url_rewriter = url_rewriter
 
     def rewrite(self, cookie_str, header='Set-Cookie'):
-        cookie = Cookie.SimpleCookie()
-        cookie.load(cookie_str)
-
         results = []
+        cookie = SimpleCookie()
+        try:
+            cookie.load(cookie_str)
+        except CookieError:
+            return results
 
         for name, morsel in cookie.iteritems():
             if morsel.get('domain'):
diff --git a/pywb/rewrite/test/test_cookie_rewriter.py b/pywb/rewrite/test/test_cookie_rewriter.py
index 620248cd..bba5c959 100644
--- a/pywb/rewrite/test/test_cookie_rewriter.py
+++ b/pywb/rewrite/test/test_cookie_rewriter.py
@@ -12,6 +12,10 @@ r"""
 >>> rewrite_cookie('abc=def; Path=file.html; Expires=Wed, 13 Jan 2021 22:23:01 GMT')
 [('Set-Cookie', 'abc=def; Path=/pywb/20131226101010/http://example.com/some/path/file.html')]
 
+# Cookie with invalid chars, not parsed
+>>> rewrite_cookie('abc@def=123')
+[]
+
 """
 
 

From 8758e60590b139754a0ae261338c78752e3ba5d8 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 09:58:07 -0700
Subject: [PATCH 41/55] update to latest wombat.js

---
 pywb/static/wombat.js | 151 ++++++++++++++++++++++++++++++++++++------
 1 file changed, 130 insertions(+), 21 deletions(-)

diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index b62c4b0f..b9b65dd5 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -26,6 +26,7 @@ WB_wombat_init = (function() {
     var wb_replay_prefix;
     var wb_replay_date_prefix;
     var wb_capture_date_part;
+    var wb_orig_scheme;
     var wb_orig_host;
 
     var wb_wombat_updating = false;
@@ -80,7 +81,7 @@ WB_wombat_init = (function() {
     var rewrite_url = rewrite_url_;
 
     function rewrite_url_debug(url) {
-        rewritten = rewrite_url_(url);
+        var rewritten = rewrite_url_(url);
         if (url != rewritten) {
             console.log('REWRITE: ' + url + ' -> ' + rewritten);
         } else {
@@ -100,8 +101,17 @@ WB_wombat_init = (function() {
     
     //============================================
     function rewrite_url_(url) {
-        // If not dealing with a string, just return it
-        if (!url || (typeof url) != "string") {
+        // If undefined, just return it
+        if (!url) {
+            return url;
+        }
+        
+        var urltype_ = (typeof url);
+        
+        // If object, use toString
+        if (urltype_ == "object") {
+            url = url.toString();
+        } else if (urltype_ != "string") {
             return url;
         }
 
@@ -145,7 +155,7 @@ WB_wombat_init = (function() {
         // May or may not be a hostname, call function to determine
         // If it is, add the prefix and make sure port is removed
         if (is_host_url(url) && !starts_with(url, window.location.host + '/')) {
-            return wb_replay_date_prefix + HTTP_PREFIX + url;
+            return wb_replay_date_prefix + wb_orig_scheme + url;
         }
 
         return url;
@@ -278,6 +288,9 @@ WB_wombat_init = (function() {
                                _get_hash);
             
             this._autooverride = res1 && res2;
+        } else {
+            this.href = href;
+            this.hash = parser.hash;
         }
                     
         this.host = parser.host;
@@ -323,8 +336,8 @@ WB_wombat_init = (function() {
         }
 
 
-        ext_orig = extract_orig(orig_href);
-        ext_req = extract_orig(req_href);
+        var ext_orig = extract_orig(orig_href);
+        var ext_req = extract_orig(req_href);
 
         if (!ext_orig || ext_orig == ext_req) {
             return;
@@ -400,7 +413,7 @@ WB_wombat_init = (function() {
 
     //============================================
     function copy_history_func(history, func_name) {
-        orig_func = history[func_name];
+        var orig_func = history[func_name];
 
         if (!orig_func) {
             return;
@@ -459,7 +472,7 @@ WB_wombat_init = (function() {
             return;
         }
 
-        value = elem.getAttribute(name);
+        var value = elem.getAttribute(name);
 
         if (!value) {
             return;
@@ -469,11 +482,22 @@ WB_wombat_init = (function() {
             return;
         }
 
-        orig_value = value;        
+        //var orig_value = value;        
         value = rewrite_url(value);
 
         elem.setAttribute(name, value);
     }
+    
+    //============================================
+    function rewrite_elem(elem)
+    {
+        rewrite_attr(elem, "src");
+        rewrite_attr(elem, "href");
+        
+        if (elem && elem.getAttribute && elem.getAttribute("crossorigin")) {
+            elem.removeAttribute("crossorigin");
+        }
+    }
 
     //============================================
     function init_dom_override() {
@@ -485,28 +509,45 @@ WB_wombat_init = (function() {
             var orig = Node.prototype[funcname];
 
             Node.prototype[funcname] = function() {
-                rewrite_attr(arguments[0], "src");
-                rewrite_attr(arguments[0], "href");
-
-                child = arguments[0];
+                var child = arguments[0];
+                
+                rewrite_elem(child);
 
                 var desc;
 
                 if (child instanceof DocumentFragment) {
-                    //desc = child.querySelectorAll("*[href],*[src]");
+     //               desc = child.querySelectorAll("*[href],*[src]");
                 } else if (child.getElementsByTagName) {
-                    //desc = child.getElementsByTagName("*");
+     //               desc = child.getElementsByTagName("*");
                 }
 
                 if (desc) {
                     for (var i = 0; i < desc.length; i++) {
-                        rewrite_attr(desc[i], "src");
-                        rewrite_attr(desc[i], "href");
+                        rewrite_elem(desc[i]);
                     }
                 }
 
-                result = orig.apply(this, arguments);
-                return result;
+                var created = orig.apply(this, arguments);
+                
+                if (created.tagName == "IFRAME") {                   
+                    var setter = function(orig) {
+                        var val = rewrite_url(orig);
+                        console.log(orig + " -> " + val);
+                        this.setAttribute("src", val);
+                        return val;
+                    }
+                    
+                    var getter = function(val) {
+                        var res = this.getAttribute("src");
+                        return res;
+                    }
+                    
+                    var curr_src = created.getAttribute("src");
+                    
+                    defProp(created, "src", curr_src, setter, getter);
+                }
+                
+                return created;
             }
         }
 
@@ -514,9 +555,66 @@ WB_wombat_init = (function() {
         replace_dom_func("insertBefore");
         replace_dom_func("replaceChild");
     }
+    
+    var postmessage_rewritten;
+    
+    //============================================
+    function init_postmessage_override()
+    {   
+        if (!Window.prototype.postMessage) {
+            return;
+        }
+        
+        var orig = Window.prototype.postMessage;
+        
+        postmessage_rewritten = function(message, targetOrigin, transfer) {
+            if (targetOrigin && targetOrigin != "*") {
+                targetOrigin = window.location.origin;
+            }
+            
+            return orig.call(this, message, targetOrigin, transfer);
+        }
+        
+        window.postMessage = postmessage_rewritten;
+        window.Window.prototype.postMessage = postmessage_rewritten;
+        
+        for (var i = 0; i < window.frames.length; i++) {
+            try {
+                window.frames[i].postMessage = postmessage_rewritten;
+            } catch (e) {
+                console.log(e);
+            }
+        }
+    }
+    
+    //============================================
+    function init_open_override()
+    {   
+        if (!Window.prototype.open) {
+            return;
+        }
+        
+        var orig = Window.prototype.open;
+        
+        var open_rewritten = function(strUrl, strWindowName, strWindowFeatures) {
+            strUrl = rewrite_url(strUrl);
+            return orig.call(this, strUrl, strWindowName, strWindowFeatures);
+        }
+        
+        window.open = open_rewritten;
+        window.Window.prototype.open = open_rewritten;
+        
+        for (var i = 0; i < window.frames.length; i++) {
+            try {
+                window.frames[i].open = open_rewritten;
+            } catch (e) {
+                console.log(e);
+            }
+        }
+    }
 
     //============================================
-    function wombat_init(replay_prefix, capture_date, orig_host, timestamp) {
+    function wombat_init(replay_prefix, capture_date, orig_scheme, orig_host, timestamp) {
         wb_replay_prefix = replay_prefix;
 
         wb_replay_date_prefix = replay_prefix + capture_date + "em_/";
@@ -526,8 +624,10 @@ WB_wombat_init = (function() {
         } else {
             wb_capture_date_part = "";
         }
+        
+        wb_orig_scheme = orig_scheme + '://';
 
-        wb_orig_host = HTTP_PREFIX + orig_host;
+        wb_orig_host = wb_orig_scheme + orig_host;
 
         // Location
         var wombat_location = new WombatLocation(window.self.location);
@@ -546,6 +646,9 @@ WB_wombat_init = (function() {
             defProp(window, "WB_wombat_location", wombat_location, setter);
             defProp(document, "WB_wombat_location", wombat_location, setter);
         } else {
+            window.WB_wombat_location = wombat_location;
+            document.WB_wombat_location = wombat_location;
+            
             // Check quickly after page load
             setTimeout(check_all_locations, 500);   
       
@@ -579,7 +682,13 @@ WB_wombat_init = (function() {
         // History
         copy_history_func(window.history, 'pushState');
         copy_history_func(window.history, 'replaceState');
+        
+        // open
+        init_open_override();
 
+        // postMessage
+        init_postmessage_override();
+        
         // Ajax
         init_ajax_rewrite();
         init_worker_override();

From 7d236af7d7762574a7a3e14ed6c5cb0c1f950a38 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 21:16:50 -0700
Subject: [PATCH 42/55] cdx: fix creation and add test for non-surt cdx
 (pywb-nonsurt/ test) archiveindexer: -u option to generate non-surt cdx
 tests: full test coverage for cdxdomainspecific (fuzzy and custom canon)

---
 pywb/cdx/cdxdomainspecific.py           | 13 ++++----
 pywb/cdx/test/test_cdxserver.py         | 30 ++++++++++++++++++
 pywb/rules.yaml                         |  1 +
 pywb/warc/archiveindexer.py             | 42 ++++++++++++++++++-------
 sample_archive/cdx/example-non-surt.cdx |  4 +++
 tests/test_config.yaml                  |  2 ++
 tests/test_integration.py               |  7 +++++
 7 files changed, 82 insertions(+), 17 deletions(-)
 create mode 100644 sample_archive/cdx/example-non-surt.cdx

diff --git a/pywb/cdx/cdxdomainspecific.py b/pywb/cdx/cdxdomainspecific.py
index 83b4d1ee..fd830c17 100644
--- a/pywb/cdx/cdxdomainspecific.py
+++ b/pywb/cdx/cdxdomainspecific.py
@@ -25,7 +25,7 @@ def load_domain_specific_cdx_rules(ds_rules_file, surt_ordered):
                     ds_rules_file=ds_rules_file)
 
     if not surt_ordered:
-        for rule in rules:
+        for rule in rules.rules:
             rule.unsurt()
 
     if rules:
@@ -36,7 +36,7 @@ def load_domain_specific_cdx_rules(ds_rules_file, surt_ordered):
                     ds_rules_file=ds_rules_file)
 
     if not surt_ordered:
-        for rule in rules:
+        for rule in rules.rules:
             rule.unsurt()
 
     if rules:
@@ -108,11 +108,12 @@ class FuzzyQuery:
         params.update({'url': url,
                        'matchType': 'prefix',
                        'filter': filter_})
-        try:
+
+        if 'reverse' in params:
             del params['reverse']
+
+        if 'closest' in params:
             del params['closest']
-        except KeyError:
-            pass
 
         return params
 
@@ -141,7 +142,7 @@ class CDXDomainSpecificRule(BaseRule):
         """
         self.url_prefix = map(unsurt, self.url_prefix)
         if self.regex:
-            self.regex = unsurt(self.regex)
+            self.regex = re.compile(unsurt(self.regex.pattern))
 
         if self.replace:
             self.replace = unsurt(self.replace)
diff --git a/pywb/cdx/test/test_cdxserver.py b/pywb/cdx/test/test_cdxserver.py
index 3e4cdf3e..f90ef8aa 100644
--- a/pywb/cdx/test/test_cdxserver.py
+++ b/pywb/cdx/test/test_cdxserver.py
@@ -128,6 +128,36 @@ def test_fuzzy_match():
     assert_cdx_fuzzy_match(RemoteCDXServer(CDX_SERVER_URL,
                            ds_rules_file=DEFAULT_RULES_FILE))
 
+def test_fuzzy_no_match_1():
+    # no match, no fuzzy
+    with patch('pywb.cdx.cdxsource.urllib2.urlopen', mock_urlopen):
+        server = CDXServer([TEST_CDX_DIR], ds_rules_file=DEFAULT_RULES_FILE)
+        with raises(NotFoundException):
+            server.load_cdx(url='http://notfound.example.com/',
+                            output='cdxobject',
+                            reverse=True,
+                            allowFuzzy=True)
+
+def test_fuzzy_no_match_2():
+    # fuzzy rule, but no actual match
+    with patch('pywb.cdx.cdxsource.urllib2.urlopen', mock_urlopen):
+        server = CDXServer([TEST_CDX_DIR], ds_rules_file=DEFAULT_RULES_FILE)
+        with raises(NotFoundException):
+            server.load_cdx(url='http://notfound.example.com/?_=1234',
+                            closest='2014',
+                            reverse=True,
+                            output='cdxobject',
+                            allowFuzzy=True)
+
+def test2_fuzzy_no_match_3():
+    # special fuzzy rule, matches prefix test.example.example.,
+    # but doesn't match rule regex
+    with patch('pywb.cdx.cdxsource.urllib2.urlopen', mock_urlopen):
+        server = CDXServer([TEST_CDX_DIR], ds_rules_file=DEFAULT_RULES_FILE)
+        with raises(NotFoundException):
+            server.load_cdx(url='http://test.example.example/',
+                            allowFuzzy=True)
+
 def assert_error(func, exception):
     with raises(exception):
         func(CDXServer(CDX_SERVER_URL))
diff --git a/pywb/rules.yaml b/pywb/rules.yaml
index 563a8a28..04327c92 100644
--- a/pywb/rules.yaml
+++ b/pywb/rules.yaml
@@ -60,3 +60,4 @@ rules:
       fuzzy_lookup:
         match: '(.*)[&?](?:_|uncache)=[\d]+[&]?'
         filter: '=urlkey:{0}'
+        replace: '?'
diff --git a/pywb/warc/archiveindexer.py b/pywb/warc/archiveindexer.py
index 2247ced4..df7eef66 100644
--- a/pywb/warc/archiveindexer.py
+++ b/pywb/warc/archiveindexer.py
@@ -1,9 +1,9 @@
 from pywb.utils.timeutils import iso_date_to_timestamp
 from pywb.utils.bufferedreaders import DecompressingBufferedReader
+from pywb.utils.canonicalize import canonicalize
 
 from recordloader import ArcWarcRecordLoader
 
-import surt
 import hashlib
 import base64
 
@@ -22,12 +22,13 @@ class ArchiveIndexer(object):
     if necessary
     """
     def __init__(self, fileobj, filename,
-                 out=sys.stdout, sort=False, writer=None):
+                 out=sys.stdout, sort=False, writer=None, surt_ordered=True):
         self.fh = fileobj
         self.filename = filename
         self.loader = ArcWarcRecordLoader()
         self.offset = 0
         self.known_format = None
+        self.surt_ordered = surt_ordered
 
         if writer:
             self.writer = writer
@@ -179,7 +180,9 @@ class ArchiveIndexer(object):
         if not digest:
             digest = '-'
 
-        return [surt.surt(url),
+        key = canonicalize(url, self.surt_ordered)
+
+        return [key,
                 timestamp,
                 url,
                 mime,
@@ -211,7 +214,9 @@ class ArchiveIndexer(object):
         mime = record.rec_headers.get_header('content-type')
         mime = self._extract_mime(mime)
 
-        return [surt.surt(url),
+        key = canonicalize(url, self.surt_ordered)
+
+        return [key,
                 timestamp,
                 url,
                 mime,
@@ -318,7 +323,7 @@ def iter_file_or_dir(inputs):
                 yield os.path.join(input_, filename), filename
 
 
-def index_to_file(inputs, output, sort):
+def index_to_file(inputs, output, sort, surt_ordered):
     if output == '-':
         outfile = sys.stdout
     else:
@@ -337,7 +342,8 @@ def index_to_file(inputs, output, sort):
             with open(fullpath, 'r') as infile:
                 ArchiveIndexer(fileobj=infile,
                                filename=filename,
-                               writer=writer).make_index()
+                               writer=writer,
+                               surt_ordered=surt_ordered).make_index()
     finally:
         writer.end_all()
         if infile:
@@ -357,7 +363,7 @@ def cdx_filename(filename):
     return remove_ext(filename) + '.cdx'
 
 
-def index_to_dir(inputs, output, sort):
+def index_to_dir(inputs, output, sort, surt_ordered):
     for fullpath, filename in iter_file_or_dir(inputs):
 
         outpath = cdx_filename(filename)
@@ -368,7 +374,8 @@ def index_to_dir(inputs, output, sort):
                 ArchiveIndexer(fileobj=infile,
                                filename=filename,
                                sort=sort,
-                               out=outfile).make_index()
+                               out=outfile,
+                               surt_ordered=surt_ordered).make_index()
 
 
 def main(args=None):
@@ -393,6 +400,12 @@ Some examples:
 
     sort_help = """
 sort the output to each file before writing to create a total ordering
+"""
+
+    unsurt_help = """
+Convert SURT (Sort-friendly URI Reordering Transform) back to regular
+urls for the cdx key. Default is to use SURT keys.
+Not-recommended for new cdx, use only for backwards-compatibility.
 """
 
     output_help = """output file or directory.
@@ -409,15 +422,22 @@ sort the output to each file before writing to create a total ordering
                             epilog=epilog,
                             formatter_class=RawTextHelpFormatter)
 
-    parser.add_argument('-s', '--sort', action='store_true', help=sort_help)
+    parser.add_argument('-s', '--sort',
+                        action='store_true',
+                        help=sort_help)
+
+    parser.add_argument('-u', '--unsurt',
+                        action='store_true',
+                        help=unsurt_help)
+
     parser.add_argument('output', help=output_help)
     parser.add_argument('inputs', nargs='+', help=input_help)
 
     cmd = parser.parse_args(args=args)
     if cmd.output != '-' and os.path.isdir(cmd.output):
-        index_to_dir(cmd.inputs, cmd.output, cmd.sort)
+        index_to_dir(cmd.inputs, cmd.output, cmd.sort, not cmd.unsurt)
     else:
-        index_to_file(cmd.inputs, cmd.output, cmd.sort)
+        index_to_file(cmd.inputs, cmd.output, cmd.sort, not cmd.unsurt)
 
 
 if __name__ == '__main__':
diff --git a/sample_archive/cdx/example-non-surt.cdx b/sample_archive/cdx/example-non-surt.cdx
new file mode 100644
index 00000000..4cded58d
--- /dev/null
+++ b/sample_archive/cdx/example-non-surt.cdx
@@ -0,0 +1,4 @@
+ CDX N b a m s k r M S V g
+example.com/?example=1 20140103030321 http://example.com?example=1 text/html 200 B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 1043 333 example.warc.gz
+example.com/?example=1 20140103030341 http://example.com?example=1 warc/revisit - B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A - - 553 1864 example.warc.gz
+iana.org/domains/example 20140128051539 http://www.iana.org/domains/example text/html 302 JZ622UA23G5ZU6Y3XAKH4LINONUEICEG - - 577 2907 example.warc.gz
diff --git a/tests/test_config.yaml b/tests/test_config.yaml
index 2d748083..653c4506 100644
--- a/tests/test_config.yaml
+++ b/tests/test_config.yaml
@@ -15,6 +15,8 @@ collections:
     # ex with filtering: filter CDX lines by filename starting with 'dupe'
     pywb-filt: {'index_paths': './sample_archive/cdx/', 'filters': ['filename:dupe*']}
 
+    pywb-nosurt: {'index_paths': './sample_archive/cdx/example-non-surt.cdx', 'surt_ordered': False}
+
 
 # indicate if cdx files are sorted by SURT keys -- eg: com,example)/
 # SURT keys are recommended for future indices, but non-SURT cdxs
diff --git a/tests/test_integration.py b/tests/test_integration.py
index 10ed3724..27272674 100644
--- a/tests/test_integration.py
+++ b/tests/test_integration.py
@@ -94,6 +94,13 @@ class TestWb:
         assert 'wb.js' in resp.body
         assert '/pywb/20140127171238/http://www.iana.org/time-zones"' in resp.body
 
+    def test_replay_non_surt(self):
+        resp = self.testapp.get('/pywb-nosurt/20140103030321/http://example.com?example=1')
+        self._assert_basic_html(resp)
+
+        #assert 'Mon, Jan 27 2014 17:12:38' in resp.body
+        assert 'wb.js' in resp.body
+        #assert '/pywb/20140127171238/http://www.iana.org/time-zones"' in resp.body
 
     def test_replay_url_agnostic_revisit(self):
         resp = self.testapp.get('/pywb/20130729195151/http://www.example.com/')

From ca33287051b77576c677a19f823ba62380f8b8eb Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 21:21:14 -0700
Subject: [PATCH 43/55] test: move non-surt-cdx sample to non-surt-cdx/ dir for
 clarity / avoid confusion when bulk loading cdx/ dir (surt and non-surt cdx
 should NOT be mixed)

---
 sample_archive/{cdx => non-surt-cdx}/example-non-surt.cdx | 0
 tests/test_config.yaml                                    | 3 ++-
 tests/test_integration.py                                 | 4 ++--
 3 files changed, 4 insertions(+), 3 deletions(-)
 rename sample_archive/{cdx => non-surt-cdx}/example-non-surt.cdx (100%)

diff --git a/sample_archive/cdx/example-non-surt.cdx b/sample_archive/non-surt-cdx/example-non-surt.cdx
similarity index 100%
rename from sample_archive/cdx/example-non-surt.cdx
rename to sample_archive/non-surt-cdx/example-non-surt.cdx
diff --git a/tests/test_config.yaml b/tests/test_config.yaml
index 653c4506..6ed28757 100644
--- a/tests/test_config.yaml
+++ b/tests/test_config.yaml
@@ -15,7 +15,8 @@ collections:
     # ex with filtering: filter CDX lines by filename starting with 'dupe'
     pywb-filt: {'index_paths': './sample_archive/cdx/', 'filters': ['filename:dupe*']}
 
-    pywb-nosurt: {'index_paths': './sample_archive/cdx/example-non-surt.cdx', 'surt_ordered': False}
+    # collection of non-surt CDX
+    pywb-nosurt: {'index_paths': './sample_archive/non-surt-cdx/', 'surt_ordered': False}
 
 
 # indicate if cdx files are sorted by SURT keys -- eg: com,example)/
diff --git a/tests/test_integration.py b/tests/test_integration.py
index 27272674..1d469574 100644
--- a/tests/test_integration.py
+++ b/tests/test_integration.py
@@ -98,9 +98,9 @@ class TestWb:
         resp = self.testapp.get('/pywb-nosurt/20140103030321/http://example.com?example=1')
         self._assert_basic_html(resp)
 
-        #assert 'Mon, Jan 27 2014 17:12:38' in resp.body
+        assert 'Fri, Jan 03 2014 03:03:21' in resp.body
         assert 'wb.js' in resp.body
-        #assert '/pywb/20140127171238/http://www.iana.org/time-zones"' in resp.body
+        assert '/pywb-nosurt/20140103030321/http://www.iana.org/domains/example' in resp.body
 
     def test_replay_url_agnostic_revisit(self):
         resp = self.testapp.get('/pywb/20130729195151/http://www.example.com/')

From 2600d870d7e0687338d82269713615b15c3b7298 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 22:17:51 -0700
Subject: [PATCH 44/55] improved test: dsrules remove redundant check static:
 check invalid static paths and file_wrapper memento: check non-memento paths
 test debug handlers and custom '-cdx' suffix

---
 pywb/utils/dsrules.py     |  8 ++------
 pywb/webapp/handlers.py   |  2 +-
 tests/test_config.yaml    | 10 +++++++++-
 tests/test_integration.py | 11 ++++++++++-
 tests/test_memento.py     | 29 +++++++++++++++++++++++++++++
 5 files changed, 51 insertions(+), 9 deletions(-)

diff --git a/pywb/utils/dsrules.py b/pywb/utils/dsrules.py
index 672ce738..7c0a8cf9 100644
--- a/pywb/utils/dsrules.py
+++ b/pywb/utils/dsrules.py
@@ -31,12 +31,8 @@ class RuleSet(object):
 
         config = load_yaml_config(ds_rules_file)
 
-        rulesmap = config.get('rules') if config else None
-
-        # if default_rule_config provided, always init a default ruleset
-        if not rulesmap and default_rule_config is not None:
-            self.rules = [rule_cls(self.DEFAULT_KEY, default_rule_config)]
-            return
+        # load rules dict or init to empty
+        rulesmap = config.get('rules') if config else {}
 
         def_key_found = False
 
diff --git a/pywb/webapp/handlers.py b/pywb/webapp/handlers.py
index ce11b6b1..a19c9405 100644
--- a/pywb/webapp/handlers.py
+++ b/pywb/webapp/handlers.py
@@ -80,7 +80,7 @@ class StaticHandler(BaseHandler):
             raise NotFoundException('Static File Not Found: ' +
                                     wbrequest.wb_url_str)
 
-    def __str__(self):
+    def __str__(self):  # pragma: no cover
         return 'Static files from ' + self.static_path
 
 
diff --git a/tests/test_config.yaml b/tests/test_config.yaml
index 6ed28757..b3ed0c03 100644
--- a/tests/test_config.yaml
+++ b/tests/test_config.yaml
@@ -87,7 +87,9 @@ static_routes:
 enable_http_proxy: true
 
 # enable cdx server api for querying cdx directly (experimental)
-enable_cdx_api: true
+#enable_cdx_api: True
+# or specify suffix
+enable_cdx_api: -cdx
 
 # test different port
 port: 9000
@@ -107,3 +109,9 @@ perms_policy: !!python/name:tests.perms_fixture.perms_policy
 
 # not testing memento here
 enable_memento: False
+
+
+# Debug Handlers
+debug_echo_env: True
+
+debug_echo_req: True
diff --git a/tests/test_integration.py b/tests/test_integration.py
index 1d469574..54620084 100644
--- a/tests/test_integration.py
+++ b/tests/test_integration.py
@@ -214,13 +214,22 @@ class TestWb:
         assert resp.status_int == 403
         assert 'Excluded' in resp.body
 
-
     def test_static_content(self):
         resp = self.testapp.get('/static/test/route/wb.css')
         assert resp.status_int == 200
         assert resp.content_type == 'text/css'
         assert resp.content_length > 0
 
+    def test_static_content_filewrapper(self):
+        from wsgiref.util import FileWrapper
+        resp = self.testapp.get('/static/test/route/wb.css', extra_environ = {'wsgi.file_wrapper': FileWrapper})
+        assert resp.status_int == 200
+        assert resp.content_type == 'text/css'
+        assert resp.content_length > 0
+
+    def test_static_not_found(self):
+        resp = self.testapp.get('/static/test/route/notfound.css', status = 404)
+        assert resp.status_int == 404
 
     # 'Simulating' proxy by settings REQUEST_URI explicitly to http:// url and no SCRIPT_NAME
     # would be nice to be able to test proxy more
diff --git a/tests/test_memento.py b/tests/test_memento.py
index 1e60606b..42840e7e 100644
--- a/tests/test_memento.py
+++ b/tests/test_memento.py
@@ -155,6 +155,19 @@ rel="memento"; datetime="Fri, 03 Jan 2014 03:03:21 GMT",'
         assert lines[4] == '<http://localhost:80/pywb/20140103030341/http://example.com?example=1>; \
 rel="memento"; datetime="Fri, 03 Jan 2014 03:03:41 GMT"'
 
+    def test_timemap_2(self):
+        """
+        Test application/link-format timemap total count
+        """
+
+        resp = self.testapp.get('/pywb/timemap/*/http://example.com')
+        assert resp.status_int == 200
+        assert resp.content_type == LINK_FORMAT
+
+        lines = resp.body.split('\n')
+
+        assert len(lines) == 3 + 3
+
     # Below functions test pywb proxy mode behavior
     # They are designed to roughly conform to Memento protocol Pattern 1.3
     # with the exception that the original resource is not available
@@ -229,3 +242,19 @@ rel="memento"; datetime="Fri, 03 Jan 2014 03:03:41 GMT"'
         resp = self.testapp.get('/x-ignore-this-x', extra_environ=extra, headers=headers, status=400)
 
         assert resp.status_int == 400
+
+    def test_non_memento_path(self):
+        """
+        Non WbUrl memento path -- just ignore ACCEPT_DATETIME
+        """
+        headers = {ACCEPT_DATETIME: 'Sun, 26 Jan 2014 20:08:04'}
+        resp = self.testapp.get('/pywb/', headers=headers)
+        assert resp.status_int == 200
+
+    def test_non_memento_cdx_path(self):
+        """
+        CDX API Path -- different api, ignore ACCEPT_DATETIME for this
+        """
+        headers = {ACCEPT_DATETIME: 'Sun, 26 Jan 2014 20:08:04'}
+        resp = self.testapp.get('/pywb-cdx', headers=headers, status=400)
+        assert resp.status_int == 400

From 923421d6377f409013a51291adf9d043d9df5183 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 22:43:53 -0700
Subject: [PATCH 45/55] rewrite_content: add a few tests for cs_, js_, remove
 redundant except

---
 pywb/rewrite/rewrite_content.py |  7 ++-----
 tests/test_integration.py       | 11 +++++++++++
 2 files changed, 13 insertions(+), 5 deletions(-)

diff --git a/pywb/rewrite/rewrite_content.py b/pywb/rewrite/rewrite_content.py
index 4abb1bd0..ee28f75d 100644
--- a/pywb/rewrite/rewrite_content.py
+++ b/pywb/rewrite/rewrite_content.py
@@ -94,7 +94,7 @@ class RewriteContent:
             if isinstance(stream, ChunkedDataReader):
                 stream.set_decomp('gzip')
             else:
-                stream = DecompressingBufferedReader(stream, decomp_type='gzip')
+                stream = DecompressingBufferedReader(stream)
 
         if rewritten_headers.charset:
             encoding = rewritten_headers.charset
@@ -109,10 +109,7 @@ class RewriteContent:
 
         rule = self.ruleset.get_first_match(urlkey)
 
-        try:
-            rewriter_class = rule.rewriters[text_type]
-        except KeyError:
-            raise Exception('Unknown Text Type for Rewrite: ' + text_type)
+        rewriter_class = rule.rewriters[text_type]
 
         # for html, need to perform header insert, supply js, css, xml
         # rewriters
diff --git a/tests/test_integration.py b/tests/test_integration.py
index 54620084..9d0fad17 100644
--- a/tests/test_integration.py
+++ b/tests/test_integration.py
@@ -151,6 +151,17 @@ class TestWb:
         resp = self.testapp.get('/pywb/20140126200654/http://www.iana.org/_img/2013.1/rir-map.svg')
         assert resp.headers['Content-Length'] == str(len(resp.body))
 
+    def test_replay_css_mod(self):
+        resp = self.testapp.get('/pywb/20140127171239cs_/http://www.iana.org/_css/2013.1/screen.css')
+        assert resp.status_int == 200
+        assert resp.content_type == 'text/css'
+
+    def test_replay_js_mod(self):
+        # an empty js file
+        resp = self.testapp.get('/pywb/20140126201054js_/http://www.iana.org/_js/2013.1/iana.js')
+        assert resp.status_int == 200
+        assert resp.content_length == 0
+        assert resp.content_type == 'application/x-javascript'
 
     def test_redirect_1(self):
         resp = self.testapp.get('/pywb/20140127171237/http://www.iana.org/')

From 1d674d97d8f723f2f0c822f8efefa77f4b010647 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 16 May 2014 22:44:26 -0700
Subject: [PATCH 46/55] pep8 pass!

---
 pywb/cdx/cdxsource.py               |  1 -
 pywb/rewrite/html_rewriter.py       |  3 +--
 pywb/rewrite/regex_rewriters.py     | 11 ++++++++---
 pywb/rewrite/rewrite_live.py        |  4 ++--
 pywb/webapp/live_rewrite_handler.py |  3 +--
 5 files changed, 12 insertions(+), 10 deletions(-)

diff --git a/pywb/cdx/cdxsource.py b/pywb/cdx/cdxsource.py
index 71742041..daeedc34 100644
--- a/pywb/cdx/cdxsource.py
+++ b/pywb/cdx/cdxsource.py
@@ -128,7 +128,6 @@ class RedisCDXSource(CDXSource):
 
         return cdx_list
 
-
     def load_single_key(self, key):
         # ensure only url/surt is part of key
         key = key.split(' ')[0]
diff --git a/pywb/rewrite/html_rewriter.py b/pywb/rewrite/html_rewriter.py
index 51ef26a0..d33f9d46 100644
--- a/pywb/rewrite/html_rewriter.py
+++ b/pywb/rewrite/html_rewriter.py
@@ -62,8 +62,7 @@ class HTMLRewriterMixin(object):
 
     DATA_RW_PROTOCOLS = ('http://', 'https://', '//')
 
-
-    # ===========================
+    #===========================
     class AccumBuff:
         def __init__(self):
             self.ls = []
diff --git a/pywb/rewrite/regex_rewriters.py b/pywb/rewrite/regex_rewriters.py
index b27402f4..aba9462a 100644
--- a/pywb/rewrite/regex_rewriters.py
+++ b/pywb/rewrite/regex_rewriters.py
@@ -129,9 +129,14 @@ class JSLinkAndLocationRewriter(JSLinkOnlyRewriter):
              (r'(?<=document\.)referrer', RegexRewriter.add_prefix(prefix), 0),
 
             #todo: move to mixin?
-             (r'(?<=window\.)top', RegexRewriter.add_prefix(prefix), 0),
-             (r'\b(top)\b[!=\W]+(?:self|window)', RegexRewriter.add_prefix(prefix), 1),
-             #(r'\b(?:self|window)\b[!=\W]+\b(top)\b', RegexRewriter.add_prefix(prefix), 1),
+             (r'(?<=window\.)top',
+              RegexRewriter.add_prefix(prefix), 0),
+
+             (r'\b(top)\b[!=\W]+(?:self|window)',
+              RegexRewriter.add_prefix(prefix), 1),
+
+             #(r'\b(?:self|window)\b[!=\W]+\b(top)\b',
+             #RegexRewriter.add_prefix(prefix), 1),
         ]
         super(JSLinkAndLocationRewriter, self).__init__(rewriter, rules)
 
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index a14e61f8..e6c7776e 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -82,7 +82,8 @@ class LiveRewriter(object):
                 if host:
                     req_headers['Host'] = splits.netloc
                 if origin:
-                    req_headers['Origin'] = (splits.scheme + '://' + splits.netloc)
+                    new_origin = (splits.scheme + '://' + splits.netloc)
+                    req_headers['Origin'] = new_origin
 
             req_headers.update(self.translate_headers(env))
 
@@ -102,7 +103,6 @@ class LiveRewriter(object):
                                     stream=True,
                                     verify=False)
 
-
         statusline = str(response.status_code) + ' ' + response.reason
 
         headers = response.headers.items()
diff --git a/pywb/webapp/live_rewrite_handler.py b/pywb/webapp/live_rewrite_handler.py
index 8ed37722..51370f30 100644
--- a/pywb/webapp/live_rewrite_handler.py
+++ b/pywb/webapp/live_rewrite_handler.py
@@ -18,6 +18,7 @@ import datetime
 from views import J2TemplateView, HeadInsertView
 
 
+#=================================================================
 class RewriteHandler(WbUrlHandler):
     def __init__(self, config={}):
         #use_lxml_parser()
@@ -31,7 +32,6 @@ class RewriteHandler(WbUrlHandler):
 
         self.head_insert_view = view
 
-
         view = config.get('frame_insert_view')
         if not view:
             frame_insert = config.get('frame_insert_html',
@@ -60,7 +60,6 @@ class RewriteHandler(WbUrlHandler):
         if ref_wburl_str:
             wbrequest.env['REL_REFERER'] = WbUrl(ref_wburl_str).url
 
-
         result = self.rewriter.fetch_request(url, wbrequest.urlrewriter,
                                              head_insert_func=head_insert_func,
                                              env=wbrequest.env)

From 8c15ac16fd0ebf7e35c90574a5e833bfc7212000 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 18 May 2014 21:27:53 -0700
Subject: [PATCH 47/55] search page template: add 'prefix' to search page
 template

---
 pywb/webapp/handlers.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/pywb/webapp/handlers.py b/pywb/webapp/handlers.py
index a19c9405..2299d2e1 100644
--- a/pywb/webapp/handlers.py
+++ b/pywb/webapp/handlers.py
@@ -43,6 +43,7 @@ class WBHandler(WbUrlHandler):
     def render_search_page(self, wbrequest, **kwargs):
         if self.search_view:
             return self.search_view.render_response(wbrequest=wbrequest,
+                                                    prefix=wbrequest.wb_prefix,
                                                     **kwargs)
         else:
             return WbResponse.text_response('No Lookup Url Specified')

From 9b732def930b5965331ae9f08ea3030c414f1a5d Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Sun, 18 May 2014 21:51:07 -0700
Subject: [PATCH 48/55] cookie_rewriting: if domain is specified, apply cookie
 to coll root rather than rewritten path.. needed in order for subdomain
 cookies to be detected properly

---
 pywb/rewrite/cookie_rewriter.py           | 6 +++++-
 pywb/rewrite/test/test_cookie_rewriter.py | 8 ++++++--
 pywb/rewrite/test/test_header_rewriter.py | 4 ++--
 3 files changed, 13 insertions(+), 5 deletions(-)

diff --git a/pywb/rewrite/cookie_rewriter.py b/pywb/rewrite/cookie_rewriter.py
index c9c7e8b5..78e3c9c6 100644
--- a/pywb/rewrite/cookie_rewriter.py
+++ b/pywb/rewrite/cookie_rewriter.py
@@ -19,10 +19,14 @@ class WbUrlCookieRewriter(object):
             return results
 
         for name, morsel in cookie.iteritems():
+            # if domain set, no choice but to expand cookie path to root
             if morsel.get('domain'):
                 del morsel['domain']
-            if morsel.get('path'):
+                morsel['path'] = self.url_rewriter.prefix
+            # else set cookie to rewritten path
+            elif morsel.get('path'):
                 morsel['path'] = self.url_rewriter.rewrite(morsel['path'])
+            # remove expires as it refers to archived time
             if morsel.get('expires'):
                 del morsel['expires']
 
diff --git a/pywb/rewrite/test/test_cookie_rewriter.py b/pywb/rewrite/test/test_cookie_rewriter.py
index bba5c959..e5979fd4 100644
--- a/pywb/rewrite/test/test_cookie_rewriter.py
+++ b/pywb/rewrite/test/test_cookie_rewriter.py
@@ -3,12 +3,16 @@ r"""
 >>> rewrite_cookie('a=b; c=d;')
 [('Set-Cookie', 'a=b'), ('Set-Cookie', 'c=d')]
 
->>> rewrite_cookie('some=value; Domain=foo.com; Path=/;')
+>>> rewrite_cookie('some=value; Path=/;')
 [('Set-Cookie', 'some=value; Path=/pywb/20131226101010/http://example.com/')]
 
->>> rewrite_cookie('some=value; Domain=foo.com; Path=/diff/path/;')
+>>> rewrite_cookie('some=value; Path=/diff/path/;')
 [('Set-Cookie', 'some=value; Path=/pywb/20131226101010/http://example.com/diff/path/')]
 
+# if domain set, set path to root
+>>> rewrite_cookie('some=value; Domain=.example.com; Path=/diff/path/;')
+[('Set-Cookie', 'some=value; Path=/pywb/')]
+
 >>> rewrite_cookie('abc=def; Path=file.html; Expires=Wed, 13 Jan 2021 22:23:01 GMT')
 [('Set-Cookie', 'abc=def; Path=/pywb/20131226101010/http://example.com/some/path/file.html')]
 
diff --git a/pywb/rewrite/test/test_header_rewriter.py b/pywb/rewrite/test/test_header_rewriter.py
index de772244..1a2b2cea 100644
--- a/pywb/rewrite/test/test_header_rewriter.py
+++ b/pywb/rewrite/test/test_header_rewriter.py
@@ -21,7 +21,7 @@ HTTP Headers Rewriting
  'text_type': None}
 
 # cookie, host/origin rewriting
->>> _test_headers([('Connection', 'close'), ('Set-Cookie', 'foo=bar; Path=/; Domain=.example.com, abc=def; Path=somefile.html'), ('Host', 'example.com'), ('Origin', 'https://example.com')])
+>>> _test_headers([('Connection', 'close'), ('Set-Cookie', 'foo=bar; Path=/; abc=def; Path=somefile.html'), ('Host', 'example.com'), ('Origin', 'https://example.com')])
 {'charset': None,
  'removed_header_dict': {},
  'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('X-Archive-Orig-Connection', 'close'),
@@ -44,7 +44,7 @@ HTTP Headers Rewriting
  'text_type': 'js'}
 
 # Binary -- transfer-encoding removed
->>> _test_headers([('Content-Length', '200000'), ('Content-Type', 'image/png'), ('Set-Cookie', 'foo=bar; Path=/; Domain=.example.com'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
+>>> _test_headers([('Content-Length', '200000'), ('Content-Type', 'image/png'), ('Set-Cookie', 'foo=bar; Path=/;'), ('Content-Encoding', 'gzip'), ('Transfer-Encoding', 'chunked')])
 {'charset': None,
  'removed_header_dict': {'transfer-encoding': 'chunked'},
  'status_headers': StatusAndHeaders(protocol = '', statusline = '200 OK', headers = [ ('Content-Length', '200000'),

From eaf9cce261ae0fbe8cbfbb59cd77b1036f8ec3ca Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 10:29:22 -0700
Subject: [PATCH 49/55] Update README.rst

update for 0.4.0
---
 README.rst | 29 ++++++++++++++++++++++++++---
 1 file changed, 26 insertions(+), 3 deletions(-)

diff --git a/README.rst b/README.rst
index 2132040f..4c6dc0e2 100644
--- a/README.rst
+++ b/README.rst
@@ -1,5 +1,5 @@
-PyWb 0.4.0 Beta
-=============
+PyWb 0.4.0
+==========
 
 .. image:: https://travis-ci.org/ikreymer/pywb.png?branch=develop
       :target: https://travis-ci.org/ikreymer/pywb
@@ -9,7 +9,30 @@ PyWb 0.4.0 Beta
 
 pywb is a python implementation of web archival replay tools, sometimes also known as 'Wayback Machine'.
 
-pywb allows high-fidelity replay (browsing) of archived web data stored in standardized `ARC <http://en.wikipedia.org/wiki/ARC_(file_format)>`_ and `WARC <http://en.wikipedia.org/wiki/Web_ARChive>`_.
+pywb allows high-quality replay (browsing) of archived web data stored in standardized `ARC <http://en.wikipedia.org/wiki/ARC_(file_format)>`_ and `WARC <http://en.wikipedia.org/wiki/Web_ARChive>`_.
+
+
+pywb Tools
+-----------------------------
+
+In addition to the standard wayback machine (explained further below), pywb tool suite includes a 
+number of useful command-line and web server tools. The tools should be available to run after
+running ``python setup.py install``
+
+``live-rewrite-server`` -- a demo live rewriting web server which accepts requests using wayback machine url format at ``/rewrite/`` path, eg, ``/rewrite/http://example.com/`` 
+and applies the same url rewriting rules as are used for archived content.
+This is useful for checking how live content will appear when archived before actually creating any archive files, or for recording data.
+Note: the `webrecorder.io <https://webrecorder.io>`_ service is based on this tool.
+
+``cdx-indexer`` -- a command-line tool for creating CDX indexs from WARC and ARC files. Supports SURT and
+non-SURT based cdx files and optional sorting. See ``cdx-indexer -h`` for all options.
+for all options.
+
+``cdx-server`` -- a CDX API only server which returns a responses about CDX captures in bulk. 
+Includes most of the features of the `original cdx server implementation <https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server>`_,
+updated documentation coming soon.
+
+``wayback`` -- The full Wayback Machine application, further explained below.
 
 
 Latest Changes

From 93401650140ae033973913f0c8ae6fd2904a2f63 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 10:52:59 -0700
Subject: [PATCH 50/55] Changes for 0.4.0

---
 CHANGES.rst | 25 ++++++++++++++++++++++++-
 1 file changed, 24 insertions(+), 1 deletion(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 2a05be24..1089660e 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -1,6 +1,29 @@
-pywb 0.3.1 changelist
+pywb 0.4.0 changelist
 ~~~~~~~~~~~~~~~~~~~~~
 
+* Improved test coverage throughout the project.
+
+* live-rewrite-server: A new web server for checking rewriting rules against live content. A white-list of request headers is sent to the destination
+server. See `rewrite_live.py <https://github.com/ikreymer/pywb/blob/develop/pywb/rewrite/rewrite_live.py>`_ for more details.
+
+* Cookie Rewriting in Archival Mode: HTTP Set-Cookie header rewritten to remove Expires, rewrite Path and Domain. If Domain is used, Path is set to / to ensure cookie is visible
+from all archival urls.
+
+* Much improved handling of chunk encoded responses, better handling of zero-length chunks and fix bug where not enough gzip data was read for a full chunk to be decoded. Support for chunk-decoding w/o gzip decompression
+(for example, for binary data).
+
+* Redis CDX: Initial support for reading entire CDX 'file' from a redis key via ZRANGEBYLEX, though needs more testing.
+
+* Jinja templates: additional keyword args added to most templates for customization
+
+* Proper handling of js_ cs_ modifiers to select content-type
+
+* cdx-indexer: Support for creation of non-SURT, url-ordered as well SURT-ordered CDX files. 
+
+* Further rewrite of wombat.js: support for window.open, postMessage overrides, additional rewriting at Node creation time, better hash change detection.
+Use ``Object.defineProperty`` whenever possible to better override assignment to various JS properties.
+See `wombat.js <https://github.com/ikreymer/pywb/blob/master/pywb/static/wombat.js>`_ for more info.
+
 * Update wombat.js to support: scheme-relative urls rewriting, dom manipulation rewriting, disable web Worker api which could leak to live requests
 
 * Fixed support for empty arc/warc records. Indexed with '-', replay with '204 No Content'

From de69372b9ff99c643f9b94b94233aa2fcf1767d7 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 10:54:17 -0700
Subject: [PATCH 51/55] Update CHANGES.rst

---
 CHANGES.rst | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 1089660e..38c63959 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -3,14 +3,14 @@ pywb 0.4.0 changelist
 
 * Improved test coverage throughout the project.
 
-* live-rewrite-server: A new web server for checking rewriting rules against live content. A white-list of request headers is sent to the destination
-server. See `rewrite_live.py <https://github.com/ikreymer/pywb/blob/develop/pywb/rewrite/rewrite_live.py>`_ for more details.
+* live-rewrite-server: A new web server for checking rewriting rules against live content. A white-list of request headers is sent to 
+  the destination server. See `rewrite_live.py <https://github.com/ikreymer/pywb/blob/develop/pywb/rewrite/rewrite_live.py>`_ for more details.
 
 * Cookie Rewriting in Archival Mode: HTTP Set-Cookie header rewritten to remove Expires, rewrite Path and Domain. If Domain is used, Path is set to / to ensure cookie is visible
-from all archival urls.
+  from all archival urls.
 
 * Much improved handling of chunk encoded responses, better handling of zero-length chunks and fix bug where not enough gzip data was read for a full chunk to be decoded. Support for chunk-decoding w/o gzip decompression
-(for example, for binary data).
+  (for example, for binary data).
 
 * Redis CDX: Initial support for reading entire CDX 'file' from a redis key via ZRANGEBYLEX, though needs more testing.
 
@@ -21,8 +21,8 @@ from all archival urls.
 * cdx-indexer: Support for creation of non-SURT, url-ordered as well SURT-ordered CDX files. 
 
 * Further rewrite of wombat.js: support for window.open, postMessage overrides, additional rewriting at Node creation time, better hash change detection.
-Use ``Object.defineProperty`` whenever possible to better override assignment to various JS properties.
-See `wombat.js <https://github.com/ikreymer/pywb/blob/master/pywb/static/wombat.js>`_ for more info.
+  Use ``Object.defineProperty`` whenever possible to better override assignment to various JS properties.
+  See `wombat.js <https://github.com/ikreymer/pywb/blob/master/pywb/static/wombat.js>`_ for more info.
 
 * Update wombat.js to support: scheme-relative urls rewriting, dom manipulation rewriting, disable web Worker api which could leak to live requests
 

From 52040127b31359c858491657019edaeefe40fa91 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 11:03:22 -0700
Subject: [PATCH 52/55] update wombat.js to latest rewrite live: add another
 rewrite live header, use 307 for archival referer based redirects

---
 pywb/framework/archivalrouter.py |  2 +-
 pywb/rewrite/rewrite_live.py     |  1 +
 pywb/static/wombat.js            | 66 ++++++++++++++++++++++----------
 3 files changed, 48 insertions(+), 21 deletions(-)

diff --git a/pywb/framework/archivalrouter.py b/pywb/framework/archivalrouter.py
index 4f5278de..dce54949 100644
--- a/pywb/framework/archivalrouter.py
+++ b/pywb/framework/archivalrouter.py
@@ -192,4 +192,4 @@ class ReferRedirect:
                                          '',
                                          ''))
 
-        return WbResponse.redir_response(final_url)
+        return WbResponse.redir_response(final_url, status='307 Temp Redirect')
diff --git a/pywb/rewrite/rewrite_live.py b/pywb/rewrite/rewrite_live.py
index e6c7776e..4ed9354e 100644
--- a/pywb/rewrite/rewrite_live.py
+++ b/pywb/rewrite/rewrite_live.py
@@ -28,6 +28,7 @@ class LiveRewriter(object):
                          ('HTTP_CACHE_CONTROL', 'Cache-Control'),
                          ('HTTP_X_REQUESTED_WITH', 'X-Requested-With'),
                          ('HTTP_X_CSRF_TOKEN', 'X-CSRF-Token'),
+                         ('HTTP_PE_TOKEN', 'PE-Token'),
                          ('HTTP_COOKIE', 'Cookie'),
                          ('CONTENT_TYPE', 'Content-Type'),
                          ('CONTENT_LENGTH', 'Content-Length'),
diff --git a/pywb/static/wombat.js b/pywb/static/wombat.js
index b9b65dd5..78e4f7ea 100644
--- a/pywb/static/wombat.js
+++ b/pywb/static/wombat.js
@@ -97,7 +97,13 @@ WB_wombat_init = (function() {
     
     var VALID_PREFIXES = [HTTP_PREFIX, HTTPS_PREFIX, REL_PREFIX];
     var IGNORE_PREFIXES = ["#", "about:", "data:", "mailto:", "javascript:"];
-
+    
+    var BAD_PREFIXES;
+    
+    function init_bad_prefixes(prefix) {
+        BAD_PREFIXES = ["http:" + prefix, "https:" + prefix,
+                        "http:/" + prefix, "https:/" + prefix];
+    }
     
     //============================================
     function rewrite_url_(url) {
@@ -151,6 +157,14 @@ WB_wombat_init = (function() {
             }
             return wb_replay_date_prefix + url;
         }
+        
+        // Check for common bad prefixes and remove them
+        prefix = starts_with(url, BAD_PREFIXES);
+        
+        if (prefix) {
+            url = extract_orig(url);
+            return wb_replay_date_prefix + url;
+        }
 
         // May or may not be a hostname, call function to determine
         // If it is, add the prefix and make sure port is removed
@@ -200,7 +214,7 @@ WB_wombat_init = (function() {
     
     //============================================
     // Define custom property
-    function defProp(obj, prop, value, set_func, get_func) {
+    function def_prop(obj, prop, value, set_func, get_func) {
         var key = "_" + prop;
         obj[key] = value;
         
@@ -279,11 +293,11 @@ WB_wombat_init = (function() {
         }
         
         if (Object.defineProperty) {
-            var res1 = defProp(this, "href", href,
+            var res1 = def_prop(this, "href", href,
                                this.assign,
                                _get_url_with_hash);
             
-            var res2 = defProp(this, "hash", parser.hash,
+            var res2 = def_prop(this, "hash", parser.hash,
                                _set_hash,
                                _get_hash);
             
@@ -504,6 +518,24 @@ WB_wombat_init = (function() {
         if (!Node || !Node.prototype) {
             return;
         }
+        
+        function override_attr(obj, attr) {
+            var setter = function(orig) {
+                var val = rewrite_url(orig);
+                //console.log(orig + " -> " + val);
+                this.setAttribute(attr, val);
+                return val;
+            }
+            
+            var getter = function(val) {
+                var res = this.getAttribute(attr);
+                return res;
+            }
+            
+            var curr_src = obj.getAttribute(attr);
+            
+            def_prop(obj, attr, curr_src, setter, getter);            
+        }
 
         function replace_dom_func(funcname) {
             var orig = Node.prototype[funcname];
@@ -529,22 +561,14 @@ WB_wombat_init = (function() {
 
                 var created = orig.apply(this, arguments);
                 
-                if (created.tagName == "IFRAME") {                   
-                    var setter = function(orig) {
-                        var val = rewrite_url(orig);
-                        console.log(orig + " -> " + val);
-                        this.setAttribute("src", val);
-                        return val;
-                    }
+                if (created.tagName == "IFRAME" || 
+                    created.tagName == "IMG" || 
+                    created.tagName == "SCRIPT") {
                     
-                    var getter = function(val) {
-                        var res = this.getAttribute("src");
-                        return res;
-                    }
+                    override_attr(created, "src");
                     
-                    var curr_src = created.getAttribute("src");
-                    
-                    defProp(created, "src", curr_src, setter, getter);
+                } else if (created.tagName == "A") {
+                    override_attr(created, "href");
                 }
                 
                 return created;
@@ -628,6 +652,8 @@ WB_wombat_init = (function() {
         wb_orig_scheme = orig_scheme + '://';
 
         wb_orig_host = wb_orig_scheme + orig_host;
+        
+        init_bad_prefixes(replay_prefix);
 
         // Location
         var wombat_location = new WombatLocation(window.self.location);
@@ -643,8 +669,8 @@ WB_wombat_init = (function() {
                 }
             }
             
-            defProp(window, "WB_wombat_location", wombat_location, setter);
-            defProp(document, "WB_wombat_location", wombat_location, setter);
+            def_prop(window, "WB_wombat_location", wombat_location, setter);
+            def_prop(document, "WB_wombat_location", wombat_location, setter);
         } else {
             window.WB_wombat_location = wombat_location;
             document.WB_wombat_location = wombat_location;

From f9710d033c27c2c75ebb0f77632c1ba9f6075b09 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 11:17:12 -0700
Subject: [PATCH 53/55] fix integration test for 307 update head_insert for new
 wombat remove redundant host jinja func, use 'urlsplit' instead

---
 pywb/ui/head_insert.html  | 8 +++++---
 pywb/webapp/views.py      | 6 ------
 tests/test_integration.py | 4 ++--
 3 files changed, 7 insertions(+), 11 deletions(-)

diff --git a/pywb/ui/head_insert.html b/pywb/ui/head_insert.html
index bd5beed9..72d30142 100644
--- a/pywb/ui/head_insert.html
+++ b/pywb/ui/head_insert.html
@@ -2,9 +2,11 @@
 {% if rule.js_rewrite_location %}
 <script src='{{ wbrequest.host_prefix }}/{{ static_path }}/wombat.js'> </script>
 <script>
-  WB_wombat_init("{{wbrequest.wb_prefix}}",
-                 "{{cdx['timestamp']}}",
-                 "{{cdx['original'] | host}}",
+  {% set urlsplit = cdx['original'] | urlsplit %}
+  WB_wombat_init("{{ wbrequest.wb_prefix}}",
+                 "{{ cdx['timestamp'] if include_ts else ''}}",
+                 "{{ urlsplit.scheme }}",
+                 "{{ urlsplit.netloc }}",
                  "{{ cdx.timestamp | format_ts('%s') }}");
 </script>
 {% endif %}
diff --git a/pywb/webapp/views.py b/pywb/webapp/views.py
index 1582f93d..639bcc52 100644
--- a/pywb/webapp/views.py
+++ b/pywb/webapp/views.py
@@ -46,12 +46,6 @@ def format_ts(value, format_='%a, %b %d %Y %H:%M:%S'):
     return value.strftime(format_)
 
 
-@template_filter('host')
-def get_hostname(url):
-    split = urlparse.urlsplit(url)
-    return split.netloc
-
-
 @template_filter('urlsplit')
 def get_urlsplit(url):
     split = urlparse.urlsplit(url)
diff --git a/tests/test_integration.py b/tests/test_integration.py
index 9d0fad17..a710cfe4 100644
--- a/tests/test_integration.py
+++ b/tests/test_integration.py
@@ -188,12 +188,12 @@ class TestWb:
 
         # without timestamp
         resp = self.testapp.get('/_css/2013.1/screen.css', headers = [('Referer', 'http://localhost:8080/pywb/2014/http://iana.org/')])
-        assert resp.status_int == 302
+        assert resp.status_int == 307
         assert resp.headers['Location'] == target, resp.headers['Location']
 
         # with timestamp
         resp = self.testapp.get('/2014/_css/2013.1/screen.css', headers = [('Referer', 'http://localhost:8080/pywb/2014/http://iana.org/')])
-        assert resp.status_int == 302
+        assert resp.status_int == 307
         assert resp.headers['Location'] == target, resp.headers['Location']
 
 

From 9519e8d6f10f6d2df721cf1af21e8808acdc1f44 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 12:27:20 -0700
Subject: [PATCH 54/55] Update CHANGES.rst

---
 CHANGES.rst | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 38c63959..715c8ac6 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -14,9 +14,11 @@ pywb 0.4.0 changelist
 
 * Redis CDX: Initial support for reading entire CDX 'file' from a redis key via ZRANGEBYLEX, though needs more testing.
 
-* Jinja templates: additional keyword args added to most templates for customization
+* Jinja templates: additional keyword args added to most templates for customization, export 'urlsplit' to use by templates.
 
-* Proper handling of js_ cs_ modifiers to select content-type
+* Remove SeekableLineReader, just using standard file-like object for binary search.
+
+* Proper handling of js_ cs_ modifiers to select content-type.
 
 * cdx-indexer: Support for creation of non-SURT, url-ordered as well SURT-ordered CDX files. 
 

From 6d6f2452fce8419ce0e5e813c5344c684af17cb5 Mon Sep 17 00:00:00 2001
From: Ilya Kreymer <ikreymer@gmail.com>
Date: Fri, 30 May 2014 12:37:30 -0700
Subject: [PATCH 55/55] update README and CHANGES for release

---
 CHANGES.rst | 3 +++
 README.rst  | 3 ++-
 2 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/CHANGES.rst b/CHANGES.rst
index 715c8ac6..f06b6263 100644
--- a/CHANGES.rst
+++ b/CHANGES.rst
@@ -20,6 +20,9 @@ pywb 0.4.0 changelist
 
 * Proper handling of js_ cs_ modifiers to select content-type.
 
+* New, experimental support for top-level 'frame mode', used by live-rewrite-server, to display rewritten content in a frame. The mp_ modifier is used
+  to indicate the main page when top-level page is a frame.
+
 * cdx-indexer: Support for creation of non-SURT, url-ordered as well SURT-ordered CDX files. 
 
 * Further rewrite of wombat.js: support for window.open, postMessage overrides, additional rewriting at Node creation time, better hash change detection.
diff --git a/README.rst b/README.rst
index 4c6dc0e2..e8b09c08 100644
--- a/README.rst
+++ b/README.rst
@@ -11,6 +11,7 @@ pywb is a python implementation of web archival replay tools, sometimes also kno
 
 pywb allows high-quality replay (browsing) of archived web data stored in standardized `ARC <http://en.wikipedia.org/wiki/ARC_(file_format)>`_ and `WARC <http://en.wikipedia.org/wiki/Web_ARChive>`_.
 
+*For an example of deployed service using pywb, please see the https://webrecorder.io project*
 
 pywb Tools
 -----------------------------
@@ -22,7 +23,7 @@ running ``python setup.py install``
 ``live-rewrite-server`` -- a demo live rewriting web server which accepts requests using wayback machine url format at ``/rewrite/`` path, eg, ``/rewrite/http://example.com/`` 
 and applies the same url rewriting rules as are used for archived content.
 This is useful for checking how live content will appear when archived before actually creating any archive files, or for recording data.
-Note: the `webrecorder.io <https://webrecorder.io>`_ service is based on this tool.
+The `webrecorder.io <https://webrecorder.io>`_ service is built using this tool.
 
 ``cdx-indexer`` -- a command-line tool for creating CDX indexs from WARC and ARC files. Supports SURT and
 non-SURT based cdx files and optional sorting. See ``cdx-indexer -h`` for all options.