add recorder app, initial pass!

2025-03-24 06:59:52 +01:00 · 2016-03-09 14:33:36 -08:00 · 2016-03-09 14:33:36 -08:00 · 31fb2f926f
commit 31fb2f926f
parent 1499f0e611
4 changed files with 513 additions and 0 deletions
--- a/recorder/init.py
+++ b/recorder/init.py
--- a/recorder/recorderapp.py
+++ b/recorder/recorderapp.py
@ -0,0 +1,173 @@
 from requests import request as remote_request
 from requests.structures import CaseInsensitiveDict
 from webagg.liverec import ReadFullyStream
 from webagg.responseloader import StreamIter
 from webagg.inputrequest import DirectWSGIInputRequest
 from pywb.utils.statusandheaders import StatusAndHeadersParser
 from pywb.warc.recordloader import ArcWarcRecord
 from pywb.warc.recordloader import ArcWarcRecordLoader
 from recorder.warcrecorder import SingleFileWARCRecorder, PerRecordWARCRecorder
 from recorder.redisindexer import WritableRedisIndexer
 from six.moves.urllib.parse import parse_qsl
 import json
 import tempfile
 import traceback
 import gevent.queue
 import gevent
 #==============================================================================
 write_queue = gevent.queue.Queue()
 #==============================================================================
 class RecorderApp(object):
    def __init__(self, upstream_host, writer):
        self.upstream_host = upstream_host
        self.writer = writer
        self.parser = StatusAndHeadersParser([], verify=False)
        gevent.spawn(self._do_write)
    def _do_write(self):
        while True:
            try:
                result = write_queue.get()
                req = None
                resp = None
                req_head, req_pay, resp_head, resp_pay, params = result
                req = self._create_req_record(req_head, req_pay, 'request')
                resp = self._create_resp_record(resp_head, resp_pay, 'response')
                self.writer.write_req_resp(req, resp, params)
            except:
                traceback.print_exc()
            finally:
                try:
                    if req:
                        req.stream.close()
                    if resp:
                        resp.stream.close()
                except Exception as e:
                    traceback.print_exc()
    def _create_req_record(self, req_headers, payload, type_, ct=''):
        len_ = payload.tell()
        payload.seek(0)
        #warc_headers = StatusAndHeaders('WARC/1.0', req_headers.items())
        warc_headers = req_headers
        status_headers = self.parser.parse(payload)
        record = ArcWarcRecord('warc', type_, warc_headers, payload,
                                status_headers, ct, len_)
        return record
    def _create_resp_record(self, req_headers, payload, type_, ct=''):
        len_ = payload.tell()
        payload.seek(0)
        warc_headers = self.parser.parse(payload)
        warc_headers = CaseInsensitiveDict(warc_headers.headers)
        status_headers = self.parser.parse(payload)
        record = ArcWarcRecord('warc', type_, warc_headers, payload,
                              status_headers, ct, len_)
        return record
    def send_error(self, exc, start_response):
        message = json.dumps({'error': repr(exc)})
        headers = [('Content-Type', 'application/json; charset=utf-8'),
                   ('Content-Length', str(len(message)))]
        start_response('400 Bad Request', headers)
        return message
    def __call__(self, environ, start_response):
        request_uri = environ.get('REQUEST_URI')
        input_req = DirectWSGIInputRequest(environ)
        headers = input_req.get_req_headers()
        method = input_req.get_req_method()
        params = dict(parse_qsl(environ.get('QUERY_STRING')))
        req_stream = Wrapper(input_req.get_req_body(), headers, None)
        try:
            res = remote_request(url=self.upstream_host + request_uri,
                                 method=method,
                                 data=req_stream,
                                 headers=headers,
                                 allow_redirects=False,
                                 stream=True)
        except Exception as e:
            traceback.print_exc()
            return self.send_error(e, start_response)
        start_response('200 OK', list(res.headers.items()))
        resp_stream = Wrapper(res.raw, res.headers, req_stream, params)
        return StreamIter(ReadFullyStream(resp_stream))
 #==============================================================================
 class Wrapper(object):
    def __init__(self, stream, rec_headers, req_obj=None,
                 params=None):
        self.stream = stream
        self.out = self._create_buffer()
        self.headers = CaseInsensitiveDict(rec_headers)
        for n in rec_headers.keys():
            if not n.upper().startswith('WARC-'):
                del self.headers[n]
        self.req_obj = req_obj
        self.params = params
    def _create_buffer(self):
        return tempfile.SpooledTemporaryFile(max_size=512*1024)
    def read(self, limit=-1):
        buff = self.stream.read()
        self.out.write(buff)
        return buff
    def close(self):
        try:
            self.stream.close()
        except:
            traceback.print_exc()
        if not self.req_obj:
            return
        try:
            entry = (self.req_obj.headers, self.req_obj.out,
                     self.headers, self.out, self.params)
            write_queue.put(entry)
            self.req_obj = None
        except:
            traceback.print_exc()
 #==============================================================================
 application = RecorderApp('http://localhost:8080',
                PerRecordWARCRecorder('./warcs/{user}/{coll}/',
                  dedup_index=WritableRedisIndexer('redis://localhost/2/{user}:{coll}:cdxj', 'recorder')))
--- a/recorder/redisindexer.py
+++ b/recorder/redisindexer.py
@ -0,0 +1,57 @@
 from pywb.utils.canonicalize import calc_search_range
 from pywb.cdx.cdxobject import CDXObject
 from pywb.warc.cdxindexer import write_cdx_index
 from pywb.utils.timeutils import timestamp_to_datetime
 from pywb.utils.timeutils import datetime_to_iso_date, iso_date_to_timestamp
 from io import BytesIO
 from webagg.indexsource import RedisIndexSource
 from webagg.aggregator import SimpleAggregator
 from webagg.utils import res_template
 #==============================================================================
 class WritableRedisIndexer(RedisIndexSource):
    def __init__(self, redis_url, name):
        super(WritableRedisIndexer, self).__init__(redis_url)
        self.cdx_lookup = SimpleAggregator({name: self})
    def add_record(self, stream, params, filename=None):
        if not filename and hasattr(stream, 'name'):
            filename = stream.name
        cdxout = BytesIO()
        write_cdx_index(cdxout, stream, filename,
                        cdxj=True, append_post=True)
        z_key = res_template(self.redis_key_template, params)
        cdxes = cdxout.getvalue()
        for cdx in cdxes.split(b'\n'):
            if cdx:
                self.redis.zadd(z_key, 0, cdx)
        return cdx
    def lookup_revisit(self, params, digest, url, iso_dt):
        params['url'] = url
        params['closest'] = iso_date_to_timestamp(iso_dt)
        filters = []
        filters.append('!mime:warc/revisit')
        if digest and digest != '-':
            filters.append('digest:' + digest.split(':')[-1])
        params['filter'] = filters
        cdx_iter, errs = self.cdx_lookup(params)
        for cdx in cdx_iter:
            dt = timestamp_to_datetime(cdx['timestamp'])
            return ('revisit', cdx['url'],
                    datetime_to_iso_date(dt))
        return None
--- a/recorder/warcrecorder.py
+++ b/recorder/warcrecorder.py
@ -0,0 +1,283 @@
 import tempfile
 import uuid
 import base64
 import hashlib
 import datetime
 import zlib
 import sys
 import os
 import six
 import traceback
 from collections import OrderedDict
 from pywb.utils.loaders import LimitReader, to_native_str
 from pywb.utils.bufferedreaders import BufferedReader
 from webagg.utils import ParamFormatter
 # ============================================================================
 class BaseWARCRecorder(object):
    WARC_RECORDS = {'warcinfo': 'application/warc-fields',
         'response': 'application/http; msgtype=response',
         'revisit': 'application/http; msgtype=response',
         'request': 'application/http; msgtype=request',
         'metadata': 'application/warc-fields',
        }
    REVISIT_PROFILE = 'http://netpreserve.org/warc/1.0/revisit/uri-agnostic-identical-payload-digest'
    def __init__(self, gzip=True, dedup_index=None):
        self.gzip = gzip
        self.dedup_index = dedup_index
    def ensure_digest(self, record):
        block_digest = record.rec_headers.get('WARC-Block-Digest')
        payload_digest = record.rec_headers.get('WARC-Payload-Digest')
        if block_digest and payload_digest:
            return
        block_digester = self._create_digester()
        payload_digester = self._create_digester()
        pos = record.stream.tell()
        block_digester.update(record.status_headers.headers_buff)
        while True:
            buf = record.stream.read(8192)
            if not buf:
                break
            block_digester.update(buf)
            payload_digester.update(buf)
        record.stream.seek(pos)
        record.rec_headers['WARC-Block-Digest'] = str(block_digester)
        record.rec_headers['WARC-Payload-Digest'] = str(payload_digester)
    def _create_digester(self):
        return Digester('sha1')
    def _set_header_buff(self, record):
        record.status_headers.headers_buff = str(record.status_headers).encode('latin-1') + b'\r\n'
    def write_req_resp(self, req, resp, params):
        url = resp.rec_headers.get('WARC-Target-Uri')
        dt = resp.rec_headers.get('WARC-Date')
        if not req.rec_headers.get('WARC-Record-ID'):
            req.rec_headers['WARC-Record-ID'] = self._make_warc_id()
        req.rec_headers['WARC-Target-Uri'] = url
        req.rec_headers['WARC-Date'] = dt
        req.rec_headers['WARC-Type'] = 'request'
        req.rec_headers['Content-Type'] = req.content_type
        resp_id = resp.rec_headers.get('WARC-Record-ID')
        if resp_id:
            req.rec_headers['WARC-Concurrent-To'] = resp_id
        #resp.status_headers.remove_header('Etag')
        self._set_header_buff(req)
        self._set_header_buff(resp)
        self.ensure_digest(resp)
        resp = self._check_revisit(resp, params)
        if not resp:
            print('Skipping due to dedup')
            return
        self._do_write_req_resp(req, resp, params)
    def _check_revisit(self, record, params):
        if not self.dedup_index:
            return record
        try:
            url = record.rec_headers.get('WARC-Target-URI')
            digest = record.rec_headers.get('WARC-Payload-Digest')
            iso_dt = record.rec_headers.get('WARC-Date')
            result = self.dedup_index.lookup_revisit(params, digest, url, iso_dt)
        except Exception as e:
            traceback.print_exc()
            result = None
        if result == 'skip':
            return None
        if isinstance(result, tuple) and result[0] == 'revisit':
            record.rec_headers['WARC-Type'] = 'revisit'
            record.rec_headers['WARC-Profile'] = self.REVISIT_PROFILE
            record.rec_headers['WARC-Refers-To-Target-URI'] = result[1]
            record.rec_headers['WARC-Refers-To-Date'] = result[2]
        return record
    def _write_warc_record(self, out, record):
        if self.gzip:
            out = GzippingWriter(out)
        self._line(out, b'WARC/1.0')
        for n, v in six.iteritems(record.rec_headers):
            self._header(out, n, v)
        content_type = record.content_type
        if not content_type:
            content_type = self.WARC_RECORDS[record.rec_headers['WARC-Type']]
        self._header(out, 'Content-Type', record.content_type)
        if record.rec_headers['WARC-Type'] == 'revisit':
            http_headers_only = True
        else:
            http_headers_only = False
        if record.length:
            actual_len = len(record.status_headers.headers_buff)
            if not http_headers_only:
                diff = record.stream.tell() - actual_len
                actual_len = record.length - diff
            self._header(out, 'Content-Length', str(actual_len))
            # add empty line
            self._line(out, b'')
            # write headers and buffer
            out.write(record.status_headers.headers_buff)
            if not http_headers_only:
                out.write(record.stream.read())
            # add two lines
            self._line(out, b'\r\n')
        else:
            # add three lines (1 for end of header, 2 for end of record)
            self._line(out, b'Content-Length: 0\r\n\r\n')
        out.flush()
    def _header(self, out, name, value):
        if not value:
            return
        self._line(out, (name + ': ' + str(value)).encode('latin-1'))
    def _line(self, out, line):
        out.write(line + b'\r\n')
    @staticmethod
    def _make_warc_id(id_=None):
        if not id_:
            id_ = uuid.uuid1()
        return '<urn:uuid:{0}>'.format(id_)
 # ============================================================================
 class GzippingWriter(object):
    def __init__(self, out):
        self.compressor = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS + 16)
        self.out = out
    def write(self, buff):
        #if isinstance(buff, str):
        #    buff = buff.encode('utf-8')
        buff = self.compressor.compress(buff)
        self.out.write(buff)
    def flush(self):
        buff = self.compressor.flush()
        self.out.write(buff)
        self.out.flush()
 # ============================================================================
 class Digester(object):
    def __init__(self, type_='sha1'):
        self.type_ = type_
        self.digester = hashlib.new(type_)
    def update(self, buff):
        self.digester.update(buff)
    def __eq__(self, string):
        digest = str(base64.b32encode(self.digester.digest()))
        if ':' in string:
            digest = self._type_ + ':' + digest
        return string == digest
    def __str__(self):
        return self.type_ + ':' + to_native_str(base64.b32encode(self.digester.digest()))
 # ============================================================================
 class SingleFileWARCRecorder(BaseWARCRecorder):
    def __init__(self, warcfilename, *args, **kwargs):
        super(SingleFileWARCRecorder, self).__init__(*args, **kwargs)
        self.warcfilename = warcfilename
    def _do_write_req_resp(self, req, resp, params):
        print('Writing {0} to {1} '.format(url, self.warcfilename))
        with open(self.warcfilename, 'a+b') as out:
            start = out.tell()
            self._write_warc_record(out, resp)
            self._write_warc_record(out, req)
            out.flush()
            out.seek(start)
            if self.dedup_index:
                self.dedup_index.add_record(out, params, filename=self.warcfilename)
    def add_user_record(self, url, content_type, data):
        with open(self.warcfilename, 'a+b') as out:
            start = out.tell()
            self._write_warc_metadata(out, url, content_type, data)
            out.flush()
            #out.seek(start)
            #if self.indexer:
            #    self.indexer.add_record(out, self.warcfilename)
 # ============================================================================
 class PerRecordWARCRecorder(BaseWARCRecorder):
    def __init__(self, warcdir, *args, **kwargs):
        super(PerRecordWARCRecorder, self).__init__(*args, **kwargs)
        self.warcdir = warcdir
    def _do_write_req_resp(self, req, resp, params):
        resp_uuid = resp.rec_headers['WARC-Record-ID'].split(':')[-1].strip('<> ')
        req_uuid = req.rec_headers['WARC-Record-ID'].split(':')[-1].strip('<> ')
        formatter = ParamFormatter(params)
        full_dir = formatter.format(self.warcdir)
        try:
            os.makedirs(full_dir)
        except:
            pass
        resp_filename = os.path.join(full_dir, resp_uuid + '.warc.gz')
        req_filename = os.path.join(full_dir, req_uuid + '.warc.gz')
        self._write_record(resp_filename, resp, params, True)
        self._write_record(req_filename, req, params, False)
    def _write_record(self, filename, rec, params, index=False):
        with open(filename, 'w+b') as out:
            self._write_warc_record(out, rec)
            if index and self.dedup_index:
                out.seek(0)
                self.dedup_index.add_record(out, params, filename=filename)