pywb/rezag/responseloader.py

from rezag.liverec import BaseRecorder
from rezag.liverec import request as remote_request

from pywb.utils.timeutils import timestamp_to_datetime, datetime_to_http_date
from pywb.utils.wbexception import LiveResourceException
from pywb.warc.resolvingloader import ResolvingLoader

from io import BytesIO
from bottle import response

import uuid


#=============================================================================
class StreamIter(object):
    def __init__(self, stream, header=None, size=8192):
        self.stream = stream
        self.header = header
        self.size = size

    def __iter__(self):
        return self

    def __next__(self):
        if self.header:
            header = self.header
            self.header = None
            return header

        data = self.stream.read(self.size)
        if data:
            return data

        self.close()
        raise StopIteration

    def close(self):
        if not self.stream:
            return

        try:
            self.stream.close()
            self.stream = None
        except Exception:
            pass


#=============================================================================
class WARCPathLoader(object):
    def __init__(self, paths, cdx_source):
        self.paths = paths
        if isinstance(paths, str):
            self.paths = [paths]

        self.path_checks = list(self.warc_paths())

        self.resolve_loader = ResolvingLoader(self.path_checks,
                                              no_record_parse=True)
        self.cdx_source = cdx_source

    def warc_paths(self):
        for path in self.paths:
            def check(filename, cdx):
                try:
                    if hasattr(cdx, '_src_params') and cdx._src_params:
                        full_path = path.format(**cdx._src_params)
                    else:
                        full_path = path
                    full_path += filename
                    return full_path
                except KeyError:
                    return None

            yield check


    def __call__(self, cdx, params):
        if not cdx.get('filename') or cdx.get('offset') is None:
            return None

        cdx._src_params = params.get('_src_params')
        failed_files = []
        headers, payload = (self.resolve_loader.
                             load_headers_and_payload(cdx,
                                                      failed_files,
                                                      self.cdx_source))

        record = payload

        for n, v in record.rec_headers.headers:
            response.headers[n] = v

        response.headers['WARC-Coll'] = cdx.get('source')

        if headers != payload:
            response.headers['WARC-Target-URI'] = headers.rec_headers.get_header('WARC-Target-URI')
            response.headers['WARC-Date'] = headers.rec_headers.get_header('WARC-Date')
            response.headers['WARC-Refers-To-Target-URI'] = payload.rec_headers.get_header('WARC-Target-URI')
            response.headers['WARC-Refers-To-Date'] = payload.rec_headers.get_header('WARC-Date')
            headers.stream.close()

        res = StreamIter(record.stream)
        return res


#=============================================================================
class HeaderRecorder(BaseRecorder):
    def __init__(self, skip_list=None):
        self.buff = BytesIO()
        self.skip_list = skip_list
        self.skipped = []

    def write_response_header_line(self, line):
        if self.accept_header(line):
            self.buff.write(line)

    def get_header(self):
        return self.buff.getvalue()

    def accept_header(self, line):
        if self.skip_list and line.lower().startswith(self.skip_list):
            self.skipped.append(line)
            return False

        return True


#=============================================================================
class LiveWebLoader(object):
    SKIP_HEADERS = (b'link',
                    b'memento-datetime',
                    b'content-location',
                    b'x-archive')

    def __call__(self, cdx, params):
        load_url = cdx.get('load_url')
        if not load_url:
            return None

        recorder = HeaderRecorder(self.SKIP_HEADERS)

        input_req = params['_input_req']

        req_headers = input_req.get_req_headers()

        dt = timestamp_to_datetime(cdx['timestamp'])

        if not cdx.get('is_live'):
            req_headers['Accept-Datetime'] = datetime_to_http_date(dt)

        # if different url, ensure origin is not set
        # may need to add other headers
        if load_url != cdx['url']:
            if 'Origin' in req_headers:
                splits = urlsplit(load_url)
                req_headers['Origin'] = splits.scheme + '://' + splits.netloc

        method = input_req.get_req_method()
        data = input_req.get_req_body()

        try:
            upstream_res = remote_request(url=load_url,
                                          method=method,
                                          recorder=recorder,
                                          stream=True,
                                          allow_redirects=False,
                                          headers=req_headers,
                                          data=data,
                                          timeout=params.get('_timeout'))
        except Exception:
            raise LiveResourceException(load_url)

        resp_headers = recorder.get_header()

        response.headers['Content-Type'] = 'application/http; msgtype=response'

        #response.headers['WARC-Type'] = 'response'
        #response.headers['WARC-Record-ID'] = self._make_warc_id()
        response.headers['WARC-Target-URI'] = cdx['url']
        response.headers['WARC-Date'] = self._make_date(dt)
        response.headers['WARC-Coll'] = cdx.get('source', '')

        # Try to set content-length, if it is available and valid
        try:
            content_len = int(upstream_res.headers.get('content-length', 0))
            if content_len > 0:
                content_len += len(resp_headers)
                response.headers['Content-Length'] = content_len
        except:
            raise

        return StreamIter(upstream_res.raw, header=resp_headers)

    @staticmethod
    def _make_date(dt):
        return dt.strftime('%Y-%m-%dT%H:%M:%SZ')

    @staticmethod
    def _make_warc_id(id_=None):  #pragma: no cover
        if not id_:
            id_ = uuid.uuid1()
        return '<urn:uuid:{0}>'.format(id_)
add new package setup! add tests and testdata, splitting mem and dir agg tests 2016-02-26 18:25:10 -08:00			`from rezag.liverec import BaseRecorder`
			`from rezag.liverec import request as remote_request`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`from pywb.utils.timeutils import timestamp_to_datetime, datetime_to_http_date`
seperate iter_sources from list_sources api all errors returned as json block with error msg tests for not found, invalid errors 2016-02-29 12:34:06 -08:00			`from pywb.utils.wbexception import LiveResourceException`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`from pywb.warc.resolvingloader import ResolvingLoader`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`from io import BytesIO`
			`from bottle import response`

			`import uuid`


			`#=============================================================================`
misc fixes: add route listing, more not found tests, timemap use file:// with ranges 2016-03-01 14:46:05 -08:00			`class StreamIter(object):`
			`def __init__(self, stream, header=None, size=8192):`
			`self.stream = stream`
			`self.header = header`
			`self.size = size`

			`def __iter__(self):`
			`return self`

			`def __next__(self):`
			`if self.header:`
			`header = self.header`
			`self.header = None`
			`return header`

			`data = self.stream.read(self.size)`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`if data:`
misc fixes: add route listing, more not found tests, timemap use file:// with ranges 2016-03-01 14:46:05 -08:00			`return data`

			`self.close()`
			`raise StopIteration`

			`def close(self):`
			`if not self.stream:`
			`return`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
misc fixes: add route listing, more not found tests, timemap use file:// with ranges 2016-03-01 14:46:05 -08:00			`try:`
			`self.stream.close()`
			`self.stream = None`
			`except Exception:`
			`pass`
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`#=============================================================================`
seperate iter_sources from list_sources api all errors returned as json block with error msg tests for not found, invalid errors 2016-02-29 12:34:06 -08:00			`class WARCPathLoader(object):`
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`def __init__(self, paths, cdx_source):`
			`self.paths = paths`
			`if isinstance(paths, str):`
			`self.paths = [paths]`

			`self.path_checks = list(self.warc_paths())`

			`self.resolve_loader = ResolvingLoader(self.path_checks,`
			`no_record_parse=True)`
			`self.cdx_source = cdx_source`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`def warc_paths(self):`
			`for path in self.paths:`
			`def check(filename, cdx):`
			`try:`
add routing setup via app.py add full test suite for handlers and responseloaders, as well as timeouts 2016-02-28 14:33:08 -08:00			`if hasattr(cdx, '_src_params') and cdx._src_params:`
			`full_path = path.format(**cdx._src_params)`
			`else:`
			`full_path = path`
			`full_path += filename`
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`return full_path`
			`except KeyError:`
			`return None`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`yield check`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00
			`def __call__(self, cdx, params):`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`if not cdx.get('filename') or cdx.get('offset') is None:`
			`return None`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
add routing setup via app.py add full test suite for handlers and responseloaders, as well as timeouts 2016-02-28 14:33:08 -08:00			`cdx._src_params = params.get('_src_params')`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`failed_files = []`
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`headers, payload = (self.resolve_loader.`
			`load_headers_and_payload(cdx,`
			`failed_files,`
			`self.cdx_source))`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`record = payload`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`for n, v in record.rec_headers.headers:`
			`response.headers[n] = v`

inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`response.headers['WARC-Coll'] = cdx.get('source')`

add routing setup via app.py add full test suite for handlers and responseloaders, as well as timeouts 2016-02-28 14:33:08 -08:00			`if headers != payload:`
			`response.headers['WARC-Target-URI'] = headers.rec_headers.get_header('WARC-Target-URI')`
			`response.headers['WARC-Date'] = headers.rec_headers.get_header('WARC-Date')`
			`response.headers['WARC-Refers-To-Target-URI'] = payload.rec_headers.get_header('WARC-Target-URI')`
			`response.headers['WARC-Refers-To-Date'] = payload.rec_headers.get_header('WARC-Date')`
			`headers.stream.close()`

misc fixes: add route listing, more not found tests, timemap use file:// with ranges 2016-03-01 14:46:05 -08:00			`res = StreamIter(record.stream)`
			`return res`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00

			`#=============================================================================`
			`class HeaderRecorder(BaseRecorder):`
			`def __init__(self, skip_list=None):`
			`self.buff = BytesIO()`
			`self.skip_list = skip_list`
			`self.skipped = []`

			`def write_response_header_line(self, line):`
			`if self.accept_header(line):`
			`self.buff.write(line)`

			`def get_header(self):`
			`return self.buff.getvalue()`

			`def accept_header(self, line):`
			`if self.skip_list and line.lower().startswith(self.skip_list):`
			`self.skipped.append(line)`
			`return False`

			`return True`


			`#=============================================================================`
seperate iter_sources from list_sources api all errors returned as json block with error msg tests for not found, invalid errors 2016-02-29 12:34:06 -08:00			`class LiveWebLoader(object):`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`SKIP_HEADERS = (b'link',`
			`b'memento-datetime',`
			`b'content-location',`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`b'x-archive')`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`def __call__(self, cdx, params):`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`load_url = cdx.get('load_url')`
			`if not load_url:`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`return None`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`recorder = HeaderRecorder(self.SKIP_HEADERS)`

inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`input_req = params['_input_req']`

add routing setup via app.py add full test suite for handlers and responseloaders, as well as timeouts 2016-02-28 14:33:08 -08:00			`req_headers = input_req.get_req_headers()`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00
			`dt = timestamp_to_datetime(cdx['timestamp'])`

			`if not cdx.get('is_live'):`
			`req_headers['Accept-Datetime'] = datetime_to_http_date(dt)`

add routing setup via app.py add full test suite for handlers and responseloaders, as well as timeouts 2016-02-28 14:33:08 -08:00			`# if different url, ensure origin is not set`
			`# may need to add other headers`
			`if load_url != cdx['url']:`
			`if 'Origin' in req_headers:`
			`splits = urlsplit(load_url)`
			`req_headers['Origin'] = splits.scheme + '://' + splits.netloc`

inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`method = input_req.get_req_method()`
			`data = input_req.get_req_body()`

seperate iter_sources from list_sources api all errors returned as json block with error msg tests for not found, invalid errors 2016-02-29 12:34:06 -08:00			`try:`
			`upstream_res = remote_request(url=load_url,`
			`method=method,`
			`recorder=recorder,`
			`stream=True,`
			`allow_redirects=False,`
			`headers=req_headers,`
			`data=data,`
			`timeout=params.get('_timeout'))`
			`except Exception:`
			`raise LiveResourceException(load_url)`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00
			`resp_headers = recorder.get_header()`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`response.headers['Content-Type'] = 'application/http; msgtype=response'`

add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`#response.headers['WARC-Type'] = 'response'`
			`#response.headers['WARC-Record-ID'] = self._make_warc_id()`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`response.headers['WARC-Target-URI'] = cdx['url']`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`response.headers['WARC-Date'] = self._make_date(dt)`
inputrequest: add input request handling (direct wsgi headers) or as a prepared post request add timemap link output rename source_name -> source 2016-02-24 14:22:29 -08:00			`response.headers['WARC-Coll'] = cdx.get('source', '')`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`# Try to set content-length, if it is available and valid`
			`try:`
			`content_len = int(upstream_res.headers.get('content-length', 0))`
			`if content_len > 0:`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`content_len += len(resp_headers)`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`response.headers['Content-Length'] = content_len`
			`except:`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`raise`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
misc fixes: add route listing, more not found tests, timemap use file:// with ranges 2016-03-01 14:46:05 -08:00			`return StreamIter(upstream_res.raw, header=resp_headers)`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`@staticmethod`
add aggregate index source and tests! 2016-02-22 13:30:12 -08:00			`def _make_date(dt):`
			`return dt.strftime('%Y-%m-%dT%H:%M:%SZ')`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00
			`@staticmethod`
seperate iter_sources from list_sources api all errors returned as json block with error msg tests for not found, invalid errors 2016-02-29 12:34:06 -08:00			`def _make_warc_id(id_=None): #pragma: no cover`
add utils, responseloader and liverec 2016-02-19 17:27:19 -08:00			`if not id_:`
			`id_ = uuid.uuid1()`
			`return '<urn:uuid:{0}>'.format(id_)`