{}

import os import csv import string import codecs import simplejson as json def read_citation_list(index=0): filename = './datasets/citations.csv' if index > 0: fn, ext = os.path.splitext(filename) filename = fn + '-' + str(index) + ext with open(filename, 'r') as f: reader = csv.reader(f) lines = list(reader) keys = lines[0] lines = lines[1:] return keys, lines def unfussy_reader(reader): while True: try: yield next(reader) except StopIteration: return except csv.Error: print(csv.Error) # log the problem or whatever continue def read_csv(fn, keys=True, create=False): try: with open(fn, 'r', newline='', encoding='utf-8') as f: # reader = csv.reader( (line.replace('\0','') for line in f) ) reader = csv.reader(f) lines = list(unfussy_reader(reader)) if keys: keys = lines[0] lines = lines[1:] return keys, lines return lines except: if create: return [] raise def csv_writer(fn): with open(fn, 'w', newline='', encoding='utf-8') as f: return csv.writer(f) def write_csv(fn, keys, rows): with open(fn, 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) if keys is not None: writer.writerow(keys) for row in rows: writer.writerow(row) def read_text(fn): with open(fn, 'r') as f: return f.read() def read_json(fn): with open(fn, 'r') as json_file: return json.load(json_file) def write_json(fn, data): with open(fn, 'w') as outfile: json.dump(data, outfile) def write_report(fn, title=None, keys=None, rows=[]): with open(fn, 'w') as f: f.write("") f.write("") f.write("") if title is not None: f.write("{}".format(title)) f.write("") f.write("") f.write("") if title is not None: f.write("

{}

".format(title)) count = write_table(f, keys=keys, rows=rows) f.write("") f.write("") print("{} {}".format(fn, count)) class NameLine(object): def __init__(self, s): self.s = s.strip() def __str__(self): return '' + self.s + '' class BoldLine(object): def __init__(self, s): self.s = s.strip() def __str__(self): return '' + self.s + '' class LinkLine(object): def __init__(self, href, txt): self.href = href self.txt = txt.strip def __str__(self): return '{}'.format(self.href, self.txt) def write_table(f, keys, rows): count = 0 f.write("") if keys is not None: for key in keys: f.write("".format(key)) for row in rows: if row is None: return count += 1 f.write("") for cell in row: if isinstance(cell, list) or isinstance(cell, tuple): f.write("".format('
'.join(str(x) for x in cell))) else: f.write("".format(cell)) f.write("") f.write("

{}
{}	{}

") return count def paper_path(key='papers', paper_id=''): return '{}/{}/{}/{}/paper.json'.format('./datasets/s2', key, paper_id[0:2], paper_id) class DbPaper(object): def __init__(self, paper_id): self.paper_id = paper_id self.data = read_json(paper_path('db_papers', paper_id)) @property def title(self): return self.data['title'] @property def journal(self): return self.data['journalName'] @property def year(self): return self.data['year'] if 'year' in self.data else '' @property def authors(self): return [ (author['ids'][0] if len(author['ids']) else '', author['name']) for author in self.data['authors'] ] def record(self): return [ self.paper_id, self.title, self.journal, self.year ] class RawPaper(object): def __init__(self, paper_id): self.paper_id = paper_id data = read_json(paper_path('raw_papers', paper_id)) # print(data) if 'paper' not in data: print(data) self.data = None return None self.data = data['paper'] @property def title(self): return self.data['title']['text'] @property def year(self): return self.data['year']['text'] @property def journal(self): if 'journal' in self.data and 'name' in self.data['journal']: return self.data['journal']['name'] else: return 'Unknown' @property def authors(self): return [ (author[0]['ids'][0] if len(author[0]['ids']) else '', author[0]['name']) for author in self.data['authors'] ] def record(self): return [ self.paper_id, self.title, self.journal, self.year ] def load_paper(paper_id): if os.path.exists(paper_path('db_papers', paper_id)): # print('db paper') return DbPaper(paper_id) if os.path.exists(paper_path('raw_papers', paper_id)): # print('raw paper') return RawPaper(paper_id) print('no paper') return None def dedupe(a): p = {} for s in a: p[s] = None ss = sorted(p.keys()) return ss class AddressBook (object): def __init__(self): entities = {} lookup = {} data = read_csv('reports/all_institutions_sorted.csv', keys=None) for index, line in enumerate(data): if line[0] == line[1]: entities[line[0]] = index lookup[line[1].lower().strip()] = line[0] self.data = data self.lookup = lookup self.entities = entities def find(self, address): address = address.lower().strip().strip(string.digits) if address in self.lookup: entity = self.lookup[address] index = self.entities[entity] return self.data[index] for part in address.split(','): part = part.strip().replace(' ', ' ') if part in self.lookup: entity = self.lookup[part] index = self.entities[entity] return self.data[index] return None