1 files changed, 1 insertions, 0 deletions
diff --git a/site/datasets/citations/coco.json b/site/datasets/citations/coco.json
new file mode 100644
index 00000000..9c43b795
--- /dev/null
+++ b/site/datasets/citations/coco.json
@@ -0,0 +1 @@
+{"id": "696ca58d93f6404fea0fc75c62d1d7b378f47628", "paper": {"paperId": "696ca58d93f6404fea0fc75c62d1d7b378f47628", "key": "coco", "title": "Microsoft COCO Captions: Data Collection and Evaluation Server", "journal": "CoRR", "address": "", "address_type": "", "lat": "", "lng": "", "pdf_link": "http://pdfs.semanticscholar.org/ba95/81c33a7eebe87c50e61763e4c8d1723538f2.pdf", "report_link": "papers/696ca58d93f6404fea0fc75c62d1d7b378f47628.html", "citation_count": 283, "citations_geocoded": 129, "citations_unknown": 154, "citations_empty": 16, "citations_pdf": 231, "citations_doi": 4, "name": "COCO"}, "address": null, "citations": [["Quantifying the visual concreteness of words and topics in multimodal datasets", "", "Cornell University", "Cornell University", "Cornell University, Forest Home Drive, Forest Home, Tompkins County, New York, 14853, USA", "42.45055070", "-76.47835130", "edu", ""], ["Image In painter Mask Generator Object Classifier Real / Fake ? Is there a person ?", "", "Max Planck Institute for Informatics", "Max Planck Institute for Informatics", "MPII, E1 4, Campus, Universit\u00e4t, Sankt Johann, Bezirk Mitte, Saarbr\u00fccken, Regionalverband Saarbr\u00fccken, Saarland, 66123, Deutschland", "49.25795660", "7.04577417", "edu", ""], ["Bidirectional Multirate Reconstruction for Temporal Modeling in Videos", "University of Technology Sydney", "University of Technology Sydney", "University of Technology Sydney", "University of Technology Sydney, Omnibus Lane, Ultimo, Sydney, NSW, 2007, Australia", "-33.88096510", "151.20107299", "edu", ""], ["Learning Efficient Object Detection Models with Knowledge Distillation", "", "University of Missouri", "University of Missouri", "L1, Maguire Boulevard, Lemone Industrial Park, Columbia, Boone County, Missouri, 65201, USA", "38.92676100", "-92.29193783", "edu", ""], ["VizWiz Grand Challenge: Answering Visual Questions from Blind People", "", "University of Texas at Austin", "University of Texas at Austin", "University of Texas at Austin, 1, East 23rd Street, The Drag, Austin, Travis County, Texas, 78712, USA", "30.28415100", "-97.73195598", "edu", ""], ["Object Skeleton Extraction in Natural Images by Fusing Scale-Associated Deep Side Outputs", "", "Nanyang Technological University", "Nanyang Technological University", "NTU, Faculty Avenue, Jurong West, Southwest, 637460, Singapore", "1.34841040", "103.68297965", "edu", ""], ["Captioning Videos Using Large-Scale Image Corpus", "Sichuan University West China Hospital of Stomatology, Chengdu, China", "University of Electronic Science and Technology of China", "University of Electronic Science and Technology of China", "Columbus, OH 43210, USA", "40.01419050", "-83.03091430", "edu", ""], ["A framework for automatic question generation from text using deep reinforcement learning", "", "Monash University", "Monash University", "Monash University, Mile Lane, Parkville, City of Melbourne, Victoria, 3000, Australia", "-37.78397455", "144.95867433", "edu", ""], ["Diverse and Accurate Image Description Using a Variational Auto-Encoder with an Additive Gaussian Encoding Space", "", "University of Illinois, Urbana-Champaign", "University of Illinois, Urbana-Champaign", "B-3, South Mathews Avenue, Urbana, Champaign County, Illinois, 61801, USA", "40.11116745", "-88.22587665", "edu", ""], ["Improving Reinforcement Learning Based Image Captioning with Natural Language Prior", "", "IBM Research, North Carolina", "IBM Research", "IBM, East Cornwallis Road, Research Triangle Park, Nelson, Durham County, North Carolina, 27709, USA", "35.90422720", "-78.85565763", "company", ""], ["Generating Video Description using RNN with Semantic Attention", "", "University of Tokyo", "University of Tokyo", "\u6771\u4eac\u5927\u5b66 \u67cf\u30ad\u30e3\u30f3\u30d1\u30b9, \u5b66\u878d\u5408\u306e\u9053, \u67cf\u5e02, \u5343\u8449\u770c, \u95a2\u6771\u5730\u65b9, 277-8583, \u65e5\u672c", "35.90204480", "139.93622009", "edu", ""], ["Seeing through the Human Reporting Bias: Visual Classifiers from Noisy Human-Centric Labels", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Consensus-based Sequence Training for Video Captioning", "", "National Institute of Informatics, Japan", "National Institute of Informatics, Japan", "2 Chome-1-\uff12 Hitotsubashi, Chiyoda, Tokyo 100-0003, Japan", "35.69248530", "139.75825330", "edu", ""], ["Stacked RNNs for Encoder-Decoder Networks: Accurate Machine Understanding of Images", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["End-to-End Video Captioning with Multitask Reinforcement Learning", "", "Beihang University", "Beihang University", "\u5317\u4eac\u822a\u7a7a\u822a\u5929\u5927\u5b66, 37, \u5b66\u9662\u8def, \u4e94\u9053\u53e3, \u540e\u516b\u5bb6, \u6d77\u6dc0\u533a, 100083, \u4e2d\u56fd", "39.98083330", "116.34101249", "edu", ""], ["Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions", "", "University of Rochester", "University of Rochester", "Memorial Art Gallery, 500, University Avenue, East End, Rochester, Monroe County, New York, 14607, USA", "43.15769690", "-77.58829158", "edu", ""], ["Empirical Performance Upper Bounds for Im- Age and Video Captioning", "", "New York University", "New York University", "NYU, West 4th Street, NoHo Historic District, NoHo, Manhattan, Manhattan Community Board 2, New York County, NYC, New York, 10012, USA", "40.72925325", "-73.99625394", "edu", ""], ["Query-Focused Video Summarization: Dataset, Evaluation, and a Memory Network Based Approach", "", "University of Central Florida", "University of Central Florida", "University of Central Florida, Libra Drive, University Park, Orange County, Florida, 32816, USA", "28.59899755", "-81.19712501", "edu", ""], ["An Analysis of Action Recognition Datasets for Language and Vision Tasks", "School of Informatics, University of Edinburgh", "University of Edinburgh", "University of Edinburgh", "New College, New College Courtyard, The Mound, Old Town, Edinburgh, City of Edinburgh, Scotland, EH1 2LX, UK", "55.94951105", "-3.19534913", "edu", ""], ["Multi-Language Image Description with Neural Sequence Models", "", "University of Cambridge", "University of Cambridge", "Clifford Allbutt Lecture Theatre, Robinson Way, Romsey, Cambridge, Cambridgeshire, East of England, England, CB2 0QH, UK", "52.17638955", "0.14308882", "edu", ""], ["Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description", "", "University of Edinburgh", "University of Edinburgh", "New College, New College Courtyard, The Mound, Old Town, Edinburgh, City of Edinburgh, Scotland, EH1 2LX, UK", "55.94951105", "-3.19534913", "edu", ""], ["Generating Chinese Captions for Flickr30K Images", "", "Indiana University", "Indiana University", "Indiana University East, West Cart Road, Richmond, Wayne County, Indiana, 47374, USA", "39.86948105", "-84.87956905", "edu", ""], ["Automated audio captioning with recurrent neural networks", "", "Tampere University of Technology", "Tampere University of Technology", "TTY, 10, Korkeakoulunkatu, Finninm\u00e4ki, Hervanta, Tampere, Tampereen seutukunta, Pirkanmaa, L\u00e4nsi- ja Sis\u00e4-Suomen aluehallintovirasto, L\u00e4nsi-Suomi, Manner-Suomi, 33720, Suomi", "61.44964205", "23.85877462", "edu", ""], ["Learning to Ask: Neural Question Generation for Reading Comprehension", "", "Shanghai Jiao Tong University", "Shanghai Jiao Tong University", "\u4e0a\u6d77\u4ea4\u901a\u5927\u5b66\uff08\u5f90\u6c47\u6821\u533a\uff09, \u6dee\u6d77\u897f\u8def, \u756a\u79ba\u5c0f\u533a, \u5e73\u9634\u6865, \u5f90\u6c47\u533a, \u4e0a\u6d77\u5e02, 200052, \u4e2d\u56fd", "31.20081505", "121.42840681", "edu", ""], ["Explanatory Dialogs : Towards Actionable , Interactive Explanations Gagan Bansal", "", "University of Washington", "University of Washington", "University of Washington, Rainier Vista, Montlake, University District, Seattle, King County, Washington, 98195, USA", "47.65432380", "-122.30800894", "edu", ""], ["Pragmatically Informative Image Captioning with Character-Level Reference", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["Recurrent Topic-Transition GAN for Visual Paragraph Generation", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training", "", "Max Planck Institute for Informatics", "Max Planck Institute for Informatics", "MPII, E1 4, Campus, Universit\u00e4t, Sankt Johann, Bezirk Mitte, Saarbr\u00fccken, Regionalverband Saarbr\u00fccken, Saarland, 66123, Deutschland", "49.25795660", "7.04577417", "edu", ""], ["Video Captioning via Hierarchical Reinforcement Learning", "", "University of California, Santa Barbara", "University of California, Santa Barbara", "UCSB, Santa Barbara County, California, 93106, USA", "34.41459370", "-119.84581950", "edu", ""], ["Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog", "", "University of California, Davis", "University of California, Davis", "University of California, Davis, Apiary Drive, Yolo County, California, 95616-5270, USA", "38.53363490", "-121.79077264", "edu", ""], ["Measuring Machine Intelligence Through Visual Question Answering", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Semantic Compositional Networks for Visual Captioning", "", "Duke University", "Duke University", "Nasher Museum of Art, 2001, Campus Drive, Burch Avenue, Durham, Durham County, North Carolina, 27705, USA", "35.99905220", "-78.92906290", "edu", ""], ["Decoding Strategies for Neural Referring Expression Generation", "", "Bielefeld University", "Bielefeld University", "Fachhochschule Bielefeld FB Gestaltung, 3, Lampingstra\u00dfe, Mitte, Bielefeld, Regierungsbezirk Detmold, Nordrhein-Westfalen, 33615, Deutschland", "52.02804210", "8.51148270", "edu", ""], ["Mapping Instructions and Visual Observations to Actions with Reinforcement Learning", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Video to Text Summary: Joint Video Summarization and Captioning with Recurrent Neural Networks", "", "University of Maryland", "University of Maryland", "The Grand Garage, 5, North Paca Street, Seton Hill, Baltimore, Maryland, 21201, USA", "39.28996850", "-76.62196103", "edu", ""], ["A Corpus for Reasoning About Natural Language Grounded in Photographs", "", "University of Maryland", "University of Maryland", "The Grand Garage, 5, North Paca Street, Seton Hill, Baltimore, Maryland, 21201, USA", "39.28996850", "-76.62196103", "edu", ""], ["Evaluating the WordsEye Text-to-Scene System: Imaginative and Realistic Sentences", "", "Columbia University", "Columbia University", "Columbia University Medical Center, 630, West 168th Street, Washington Heights, Manhattan, Manhattan Community Board 12, New York County, NYC, New York, 10031, USA", "40.84198360", "-73.94368971", "edu", ""], ["Face-Cap: Image Captioning using Facial Expression Analysis", "", "Australian National University", "Australian National University", "Canberra ACT 0200, Australia", "-35.27769990", "149.11852700", "edu", ""], ["What value high level concepts in vision to language problems ?", "", "University of Adelaide", "University of Adelaide", "University of Adelaide, North Terrace, Adelaide, 5000, City of Adelaide, South Australia, 5000, Australia", "-34.91892260", "138.60423668", "edu", ""], ["A Simple, Fast Diverse Decoding Algorithm for Neural Generation", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["The Long-Short Story of Movie Description", "", "Max Planck Institute for Informatics", "Max Planck Institute for Informatics", "MPII, E1 4, Campus, Universit\u00e4t, Sankt Johann, Bezirk Mitte, Saarbr\u00fccken, Regionalverband Saarbr\u00fccken, Saarland, 66123, Deutschland", "49.25795660", "7.04577417", "edu", ""], ["Guided Open Vocabulary Image Captioning with Constrained Beam Search", "", "Australian National University", "Australian National University", "Canberra ACT 0200, Australia", "-35.27769990", "149.11852700", "edu", ""], ["Bridge Video and Text with Cascade Syntactic Structure", "", "Tsinghua University", "Tsinghua University", "\u6e05\u534e\u5927\u5b66, 30, \u53cc\u6e05\u8def, \u4e94\u9053\u53e3, \u540e\u516b\u5bb6, \u6d77\u6dc0\u533a, 100084, \u4e2d\u56fd", "40.00229045", "116.32098908", "edu", ""], ["Joint Image Captioning and Question Answering", "", "University of Texas at Austin", "University of Texas at Austin", "University of Texas at Austin, 1, East 23rd Street, The Drag, Austin, Travis County, Texas, 78712, USA", "30.28415100", "-97.73195598", "edu", ""], ["SPICE: Semantic Propositional Image Caption Evaluation", "", "Australian National University", "Australian National University", "Canberra ACT 0200, Australia", "-35.27769990", "149.11852700", "edu", ""], ["Multimodal Memory Modelling for Video Captioning", "", "Chinese Academy of Sciences", "Chinese Academy of Sciences", "\u4e2d\u56fd\u79d1\u5b66\u9662\u5fc3\u7406\u7814\u7a76\u6240, 16, \u6797\u8403\u8def, \u671d\u9633\u533a / Chaoyang, \u5317\u4eac\u5e02, 100101, \u4e2d\u56fd", "40.00447950", "116.37023800", "edu", ""], ["Learning to Decode for Future Success", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["Middle-Out Decoding", "", "University of British Columbia", "University of British Columbia", "University of British Columbia, Eagles Drive, Hawthorn Place, University Endowment Lands, Metro Vancouver, British Columbia, V6T, Canada", "49.25839375", "-123.24658161", "edu", ""], ["Visual Question Generation as Dual Task of Visual Question Answering", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Exploring Visual Relationship for Image Captioning", "", "Sun Yat-Sen University", "Sun Yat-Sen University", "\u4e2d\u5927, \u65b0\u6e2f\u897f\u8def, \u9f99\u8239\u6ed8, \u5eb7\u4e50, \u6d77\u73e0\u533a (Haizhu), \u5e7f\u5dde\u5e02, \u5e7f\u4e1c\u7701, 510105, \u4e2d\u56fd", "23.09461185", "113.28788994", "edu", ""], ["Fourth-person Captioning: Describing Daily Events by Uni-supervised and Tri-regularized Training", "", "Kyushu University", "Kyushu University", "\u4f0a\u90fd\u30b2\u30b9\u30c8\u30cf\u30a6\u30b9, \u685c\u4e95\u592a\u90ce\u4e38\u7dda, \u897f\u533a, \u798f\u5ca1\u5e02, \u798f\u5ca1\u770c, \u4e5d\u5dde\u5730\u65b9, 819\u22120395, \u65e5\u672c", "33.59914655", "130.22359848", "edu", ""], ["Exploring Models and Data for Image Question Answering", "", "University of Toronto", "University of Toronto", "University of Toronto, St. George Street, Bloor Street Culture Corridor, Old Toronto, Toronto, Ontario, M5S 1A5, Canada", "43.66333345", "-79.39769975", "edu", ""], ["simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions", "", "Peking University", "Peking University", "\u5317\u4eac\u5927\u5b66, 5\u53f7, \u9890\u548c\u56ed\u8def, \u7a3b\u9999\u56ed\u5357\u793e\u533a, \u6d77\u6dc0\u533a, \u5317\u4eac\u5e02, 100871, \u4e2d\u56fd", "39.99223790", "116.30393816", "edu", ""], ["Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks", "", "Facebook", "Facebook", "250 Bryant St, Mountain View, CA 94041, USA", "37.39367170", "-122.08072620", "company", "Facebook, Mountain View, CA"], ["Age and Video Captioning", "", "New York University", "New York University", "NYU, West 4th Street, NoHo Historic District, NoHo, Manhattan, Manhattan Community Board 2, New York County, NYC, New York, 10012, USA", "40.72925325", "-73.99625394", "edu", ""], ["Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning", "", "University of Technology Sydney", "University of Technology Sydney", "University of Technology Sydney, Omnibus Lane, Ultimo, Sydney, NSW, 2007, Australia", "-33.88096510", "151.20107299", "edu", ""], ["Deep Learning for Image Captioning", "", "Rochester Institute of Technology", "Rochester Institute of Technology", "Rochester Institute of Technology (RIT), 1, Lomb Memorial Drive, Bailey, Henrietta Town, Monroe County, New York, 14623, USA", "43.08250655", "-77.67121663", "edu", ""], ["Ask Me Anything: Free-Form Visual Question Answering Based on Knowledge from External Sources", "", "University of Adelaide", "University of Adelaide", "University of Adelaide, North Terrace, Adelaide, 5000, City of Adelaide, South Australia, 5000, Australia", "-34.91892260", "138.60423668", "edu", ""], ["Connecting Language and Vision to Actions", "", "University of Adelaide", "University of Adelaide", "University of Adelaide, North Terrace, Adelaide, 5000, City of Adelaide, South Australia, 5000, Australia", "-34.91892260", "138.60423668", "edu", ""], ["COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images", "", "Czech Technical University", "Czech Technical University", "\u010cesk\u00e9 vysok\u00e9 u\u010den\u00ed technick\u00e9 v Praze, Resslova, Nov\u00e9 M\u011bsto, Praha, okres Hlavn\u00ed m\u011bsto Praha, Hlavn\u00ed m\u011bsto Praha, Praha, 11121, \u010cesko", "50.07642960", "14.41802312", "edu", ""], ["iVQA: Inverse Visual Question Answering", "", "Southeast University", "Southeast University", "SEU, \u4f53\u80b2\u9986\u8def, \u65b0\u8857\u53e3, \u6708\u5b63\u56ed, \u7384\u6b66\u533a, \u5357\u4eac\u5e02, \u6c5f\u82cf\u7701, 210008, \u4e2d\u56fd", "32.05752790", "118.78682252", "edu", ""], ["Approximate Distribution Matching for Sequence-to-Sequence Learning", "", "University of California, Santa Barbara", "University of California, Santa Barbara", "UCSB, Santa Barbara County, California, 93106, USA", "34.41459370", "-119.84581950", "edu", ""], ["\"Factual\" or \"Emotional\": Stylized Image Captioning with Adaptive Learning and Attention", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Generating captions without looking beyond objects", "", "University of Amsterdam", "University of Amsterdam", "Institute for Logic, Language and Computation (ILLC), 107, Science Park, Oost-Watergraafsmeer, Amsterdam, Oost, Amsterdam, Noord-Holland, Nederland, 1098XG, Nederland", "52.35536550", "4.95016440", "edu", ""], ["Partially-Supervised Image Captioning", "", "Australian National University", "Australian National University", "Canberra ACT 0200, Australia", "-35.27769990", "149.11852700", "edu", ""], ["Adversarial Scene Editing: Automatic Object Removal from Weak Supervision", "", "Max Planck Institute for Informatics", "Max Planck Institute for Informatics", "MPII, E1 4, Campus, Universit\u00e4t, Sankt Johann, Bezirk Mitte, Saarbr\u00fccken, Regionalverband Saarbr\u00fccken, Saarland, 66123, Deutschland", "49.25795660", "7.04577417", "edu", ""], ["Improving Neural Question Generation using Answer Separation", "", "Seoul National University", "Seoul National University", "\uc11c\uc6b8\ub300\ud559\uad50, \uc11c\ud638\ub3d9\ub85c, \uc11c\ub454\ub3d9, \uad8c\uc120\uad6c, \uc218\uc6d0\uc2dc, \uacbd\uae30, 16614, \ub300\ud55c\ubbfc\uad6d", "37.26728000", "126.98411510", "edu", ""], ["Findings of the E2E NLG Challenge", "", "Heriot-Watt University", "Heriot-Watt University", "Heriot-Watt University - Edinburgh Campus, Third Gait, Currie, Gogarbank, City of Edinburgh, Scotland, EH14 4AS, UK", "55.91029135", "-3.32345777", "edu", ""], ["CIDEr: Consensus-based image description evaluation", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Data-driven image captioning via salient region discovery", "", "Middle East Technical University", "Middle East Technical University", "ODT\u00dc, 1, 1591.sk(315.sk), \u00c7i\u011fdem Mahallesi, Ankara, \u00c7ankaya, Ankara, \u0130\u00e7 Anadolu B\u00f6lgesi, 06800, T\u00fcrkiye", "39.87549675", "32.78553506", "edu", ""], ["Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data", "", "Chinese University of Hong Kong", "The Chinese University of Hong Kong", "\u4e2d\u5927 CUHK, NA\u68af New Asia Stairs, \u99ac\u6599\u6c34 Ma Liu Shui, \u4e5d\u809a\u6751 Kau To Village, \u6c99\u7530\u5340 Sha Tin District, \u65b0\u754c New Territories, HK, DD193 1191, \u4e2d\u56fd", "22.42031295", "114.20788644", "edu", ""], ["Fast and Simple Mixture of Softmaxes with BPE and Hybrid-LightRNN for Language Generation", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["Learning Comment Generation by Leveraging User-Generated Data", "", "Hong Kong University of Science and Technology", "Hong Kong University of Science and Technology", "\u9999\u6e2f\u79d1\u6280\u5927\u5b78 Hong Kong University of Science and Technology, \u5927\u5b78\u9053 University Road, \u5927\u57d4\u4ed4 Tai Po Tsai, \u5927\u57d4\u4ed4\u6751 Tai Po Tsai Village, \u65b0\u754c New Territories, HK, DD253 1209, \u4e2d\u56fd", "22.33863040", "114.26203370", "edu", ""], ["Diverse Image Captioning via GroupTalk", "", "Zhejiang University", "Zhejiang University", "\u6d59\u6c5f\u5927\u5b66\u4e4b\u6c5f\u6821\u533a, \u4e4b\u6c5f\u8def, \u8f6c\u5858\u8857\u9053, \u897f\u6e56\u533a (Xihu), \u676d\u5dde\u5e02 Hangzhou, \u6d59\u6c5f\u7701, 310008, \u4e2d\u56fd", "30.19331415", "120.11930822", "edu", ""], ["Trainable performance upper bounds for image and video captioning", "", "New York University", "New York University", "NYU, West 4th Street, NoHo Historic District, NoHo, Manhattan, Manhattan Community Board 2, New York County, NYC, New York, 10012, USA", "40.72925325", "-73.99625394", "edu", ""], ["VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions", "", "University of Science and Technology of China", "University of Science and Technology of China", "\u4e2d\u56fd\u79d1\u5b66\u6280\u672f\u5927\u5b66 \u4e1c\u6821\u533a, 96\u53f7, \u91d1\u5be8\u8def, \u6c5f\u6dee\u5316\u80a5\u5382\u5c0f\u533a, \u829c\u6e56\u8def\u8857\u9053, \u5408\u80a5\u5e02\u533a, \u5408\u80a5\u5e02, \u5b89\u5fbd\u7701, 230026, \u4e2d\u56fd", "31.83907195", "117.26420748", "edu", ""], ["Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description", "", "University of Texas at San Antonio", "University of Texas at San Antonio", "UTSA, Paseo Principal, San Antonio, Bexar County, Texas, 78249-1620, USA", "29.58333105", "-98.61944505", "edu", ""], ["Learning Joint Representations of Videos and Sentences with Web Image Search", "", "University of Oulu", "University of Oulu", "Oulun yliopisto, Biologintie, Linnanmaa, Oulu, Oulun seutukunta, Pohjois-Pohjanmaa, Pohjois-Suomen aluehallintovirasto, Pohjois-Suomi, Manner-Suomi, 90540, Suomi", "65.05921570", "25.46632601", "edu", ""], ["Learning to Evaluate Image Captioning", "", "Cornell University", "Cornell University", "Cornell University, Forest Home Drive, Forest Home, Tompkins County, New York, 14853, USA", "42.45055070", "-76.47835130", "edu", ""], ["Aligning where to see and what to tell: image caption with region-based attention and scene factorization", "", "Tsinghua University", "Tsinghua University", "\u6e05\u534e\u5927\u5b66, 30, \u53cc\u6e05\u8def, \u4e94\u9053\u53e3, \u540e\u516b\u5bb6, \u6d77\u6dc0\u533a, 100084, \u4e2d\u56fd", "40.00229045", "116.32098908", "edu", ""], ["Distinctive-attribute Extraction for Image Captioning", "", "Korea Electronics Technology Institute", "Korea Electronics Technology Institute", "South Korea, Gyeonggi-do, Seongnam-si, Bundang-gu, \uc0c8\ub098\ub9ac\ub85c 25 (\uc57c\ud0d1\ub3d9) KETI \uc804\uc790\ubd80\ud488\uc5f0\uad6c\uc6d0", "37.40391700", "127.15978600", "edu", ""], ["Cmu - Ucr - Bosch @ Trecvid 2017 : Video to Text Retrieval", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["Computer Vision and Natural Language Processing: Recent Approaches in Multimedia and Robotics", "University of Maryland, College Park, MD", "University of Maryland", "University of Maryland", "The Grand Garage, 5, North Paca Street, Seton Hill, Baltimore, Maryland, 21201, USA", "39.28996850", "-76.62196103", "edu", ""], ["Inverse Visual Question Answering", "", "Southeast University", "Southeast University", "SEU, \u4f53\u80b2\u9986\u8def, \u65b0\u8857\u53e3, \u6708\u5b63\u56ed, \u7384\u6b66\u533a, \u5357\u4eac\u5e02, \u6c5f\u82cf\u7701, 210008, \u4e2d\u56fd", "32.05752790", "118.78682252", "edu", ""], ["GroupCap : Group-based Image Captioning with Structured Relevance and Diversity Constraints", "", "Harbin Institute of Technology", "Harbin Institute of Technology", "\u54c8\u5c14\u6ee8\u5de5\u4e1a\u5927\u5b66, \u53f8\u4ee4\u8857, \u5357\u5c97\u533a, \u54c8\u5c14\u6ee8\u5e02 / Harbin, \u9ed1\u9f99\u6c5f\u7701, 150000, \u4e2d\u56fd", "45.74139210", "126.62552755", "edu", ""], ["Visual Reasoning with Natural Language", "", "Cornell University", "Cornell University", "Cornell University, Forest Home Drive, Forest Home, Tompkins County, New York, 14853, USA", "42.45055070", "-76.47835130", "edu", ""], ["StyleNet: Generating Attractive Visual Captions with Styles", "", "Duke University", "Duke University", "Nasher Museum of Art, 2001, Campus Drive, Burch Avenue, Durham, Durham County, North Carolina, 27705, USA", "35.99905220", "-78.92906290", "edu", ""], ["DenseCap: Fully Convolutional Localization Networks for Dense Captioning", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["iParaphrasing: Extracting Visually Grounded Paraphrases via an Image", "", "Osaka University", "Osaka University", "\u5927\u962a\u5927\u5b66\u6e05\u660e\u5bee, \u670d\u90e8\u897f\u753a\u56db\u4e01\u76ee, \u8c4a\u4e2d\u5e02, \u5927\u962a\u5e9c, \u8fd1\u757f\u5730\u65b9, \u65e5\u672c", "34.80809035", "135.45785218", "edu", ""], ["Reconstruction Network for Video Captioning", "", "Shandong University", "Shandong University", "\u5c71\u4e1c\u5927\u5b66, \u6cf0\u5b89\u8857, \u9ccc\u5c71\u536b\u8857\u9053, \u5373\u58a8\u533a, \u9752\u5c9b\u5e02, \u5c71\u4e1c\u7701, 266200, \u4e2d\u56fd", "36.36934730", "120.67381800", "edu", ""], ["Sequential Video VLAD: Training the Aggregation Locally and Temporally", "School of Computer and Information, Hefei University of Technology, Hefei, China", "Hefei University of Technology", "Hefei University of Technology", "\u5408\u80a5\u5de5\u4e1a\u5927\u5b66\uff08\u5c6f\u6eaa\u8def\u6821\u533a\uff09, 193\u53f7, \u5357\u4e00\u73af\u8def, \u822a\u8fd0\u5357\u6751, \u5305\u516c\u8857\u9053, \u5408\u80a5\u5e02\u533a, \u5408\u80a5\u5e02, \u5b89\u5fbd\u7701, 230009, \u4e2d\u56fd", "31.84691800", "117.29053367", "edu", ""], ["Multilingual Image Description with Neural Sequence Models", "", "University of Cambridge", "University of Cambridge", "Clifford Allbutt Lecture Theatre, Robinson Way, Romsey, Cambridge, Cambridgeshire, East of England, England, CB2 0QH, UK", "52.17638955", "0.14308882", "edu", ""], ["AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding", "", "Peking University", "Peking University", "\u5317\u4eac\u5927\u5b66, 5\u53f7, \u9890\u548c\u56ed\u8def, \u7a3b\u9999\u56ed\u5357\u793e\u533a, \u6d77\u6dc0\u533a, \u5317\u4eac\u5e02, 100871, \u4e2d\u56fd", "39.99223790", "116.30393816", "edu", ""], ["Subhashini VenugopalanProposal", "University of Texas at Austin", "University of Texas at Austin", "University of Texas at Austin", "University of Texas at Austin, 1, East 23rd Street, The Drag, Austin, Travis County, Texas, 78712, USA", "30.28415100", "-97.73195598", "edu", ""], ["Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints", "University of Washington", "University of Washington", "University of Washington", "University of Washington, Rainier Vista, Montlake, University District, Seattle, King County, Washington, 98195, USA", "47.65432380", "-122.30800894", "edu", ""], ["Complementing the Execution of AI Systems with Human Computation", "", "Arizona State University", "Arizona State University", "Arizona State University Polytechnic campus, East Texas Avenue, Mesa, Maricopa County, Arizona, 85212, USA", "33.30715065", "-111.67653157", "edu", ""], ["Learning Efficient Object Detection Models with Knowledge Distillation", "", "University of Missouri", "University of Missouri", "L1, Maguire Boulevard, Lemone Industrial Park, Columbia, Boone County, Missouri, 65201, USA", "38.92676100", "-92.29193783", "edu", ""], ["Image Captioning with an Intermediate Attributes Layer", "", "University of Adelaide", "University of Adelaide", "University of Adelaide, North Terrace, Adelaide, 5000, City of Adelaide, South Australia, 5000, Australia", "-34.91892260", "138.60423668", "edu", ""], ["Spatio-Temporal Attention Models for Grounded Video Captioning", "", "Lund University", "Lund University", "TEM at Lund University, 9, Klostergatan, Stadsk\u00e4rnan, Centrum, Lund, Sk\u00e5ne, G\u00f6taland, 22222, Sverige", "55.70395710", "13.19020110", "edu", ""], ["Toward Diverse Text Generation with Inverse Reinforcement Learning", "", "Fudan University", "Fudan University", "\u590d\u65e6\u5927\u5b66, 220, \u90af\u90f8\u8def, \u4e94\u89d2\u573a\u8857\u9053, \u6768\u6d66\u533a, \u4e0a\u6d77\u5e02, 200433, \u4e2d\u56fd", "31.30104395", "121.50045497", "edu", ""], ["Learning Visual Classifiers using Human-centric Annotations", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Image Captioning with Semantic Attention", "", "University of Rochester", "University of Rochester", "Memorial Art Gallery, 500, University Avenue, East End, Rochester, Monroe County, New York, 14607, USA", "43.15769690", "-77.58829158", "edu", ""], ["Deep Learning for Video Classification and Captioning", "Fudan University, 2Microsoft Research Asia, 3University of Maryland", "Fudan University", "Fudan University", "\u590d\u65e6\u5927\u5b66, 220, \u90af\u90f8\u8def, \u4e94\u89d2\u573a\u8857\u9053, \u6768\u6d66\u533a, \u4e0a\u6d77\u5e02, 200433, \u4e2d\u56fd", "31.30104395", "121.50045497", "edu", ""], ["Automatic Arabic Image Captioning using RNN-LSTM-Based Language Model and CNN", "", "King Saud University", "King Saud University", "King Saud University \u062c\u0627\u0645\u0639\u0629 \u0627\u0644\u0645\u0644\u0643 \u0633\u0639\u0648\u062f, road_16, King Saud University District, Al Maather Municipality, \u0627\u0644\u0631\u064a\u0627\u0636, \u0645\u0646\u0637\u0642\u0629 \u0627\u0644\u0631\u064a\u0627\u0636, 12393 4057, \u0627\u0644\u0633\u0639\u0648\u062f\u064a\u0629", "24.72464030", "46.62335012", "edu", ""], ["Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets", "", "University of Southern California", "University of Southern California", "University of Southern California, Watt Way, Saint James Park, LA, Los Angeles County, California, 90089, USA", "34.02241490", "-118.28634407", "edu", ""], ["Emergent Translation in Multi-Agent Communication", "", "New York University", "New York University", "NYU, West 4th Street, NoHo Historic District, NoHo, Manhattan, Manhattan Community Board 2, New York County, NYC, New York, 10012, USA", "40.72925325", "-73.99625394", "edu", ""], ["Oracle Performance for Visual Captioning", "", "New York University", "New York University", "NYU, West 4th Street, NoHo Historic District, NoHo, Manhattan, Manhattan Community Board 2, New York County, NYC, New York, 10012, USA", "40.72925325", "-73.99625394", "edu", ""], ["Neural Aesthetic Image Reviewer", "", "Fudan University", "Fudan University", "\u590d\u65e6\u5927\u5b66, 220, \u90af\u90f8\u8def, \u4e94\u89d2\u573a\u8857\u9053, \u6768\u6d66\u533a, \u4e0a\u6d77\u5e02, 200433, \u4e2d\u56fd", "31.30104395", "121.50045497", "edu", ""], ["Deep Visual-Semantic Alignments for Generating Image Descriptions", "", "Stanford University", "Stanford University", "Stanford University, Memorial Way, Stanford, Santa Clara County, California, 94305-6015, USA", "37.43131385", "-122.16936535", "edu", ""], ["NNEval: Neural Network Based Evaluation Metric for Image Captioning", "", "University of Western Australia", "University of Western Australia", "UWA, 35, Underwood Avenue, Daglish, Perth, Western Australia, 6009, Australia", "-31.95040445", "115.79790037", "edu", ""], ["Show, Reward and Tell: Automatic Generation of Narrative Paragraph from Photo Stream by Adversarial Training", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story Generation", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Can Saliency Information Benefit Image Captioning Models?", "", "Aalto University", "Aalto University", "Aalto, 24, Otakaari, Otaniemi, Suur-Tapiola, Espoo, Helsingin seutukunta, Uusimaa, Etel\u00e4-Suomi, Manner-Suomi, 02150, Suomi", "60.18558755", "24.82427330", "edu", ""], ["Paying Attention to Descriptions Generated by Image Captioning Models", "", "University of Central Florida", "University of Central Florida", "University of Central Florida, Libra Drive, University Park, Orange County, Florida, 32816, USA", "28.59899755", "-81.19712501", "edu", ""], ["Partially-Supervised Image Captioning", "", "Australian National University", "Australian National University", "Canberra ACT 0200, Australia", "-35.27769990", "149.11852700", "edu", ""], ["Aspect-based Question Generation", "", "Peking University", "Peking University", "\u5317\u4eac\u5927\u5b66, 5\u53f7, \u9890\u548c\u56ed\u8def, \u7a3b\u9999\u56ed\u5357\u793e\u533a, \u6d77\u6dc0\u533a, \u5317\u4eac\u5e02, 100871, \u4e2d\u56fd", "39.99223790", "116.30393816", "edu", ""], ["Fine-grained Video Captioning for Sports Narrative", "", "Shanghai Jiao Tong University", "Shanghai Jiao Tong University", "\u4e0a\u6d77\u4ea4\u901a\u5927\u5b66\uff08\u5f90\u6c47\u6821\u533a\uff09, \u6dee\u6d77\u897f\u8def, \u756a\u79ba\u5c0f\u533a, \u5e73\u9634\u6865, \u5f90\u6c47\u533a, \u4e0a\u6d77\u5e02, 200052, \u4e2d\u56fd", "31.20081505", "121.42840681", "edu", ""], ["TVT: Two-View Transformer Network for Video Captioning", "", "Zhejiang University", "Zhejiang University", "\u6d59\u6c5f\u5927\u5b66\u4e4b\u6c5f\u6821\u533a, \u4e4b\u6c5f\u8def, \u8f6c\u5858\u8857\u9053, \u897f\u6e56\u533a (Xihu), \u676d\u5dde\u5e02 Hangzhou, \u6d59\u6c5f\u7701, 310008, \u4e2d\u56fd", "30.19331415", "120.11930822", "edu", ""], ["Video Captioning with Transferred Semantic Attributes", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""], ["Reward Learning from Narrated Demonstrations", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["Encode, Review, and Decode: Reviewer Module for Caption Generation", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["How2: A Large-scale Dataset for Multimodal Language Understanding", "", "Carnegie Mellon University", "Carnegie Mellon University", "Carnegie Mellon University Silicon Valley, South Akron Road, ARC, Santa Clara County, California, 94035-0016, USA", "37.41021930", "-122.05965487", "edu", ""], ["A sequential guiding network with attention for image captioning", "", "North China Electric Power University", "North China Electric Power University", "\u534e\u5317\u7535\u529b\u5927\u5b66, \u6c38\u534e\u5317\u5927\u8857, \u83b2\u6c60\u533a, \u4fdd\u5b9a\u5e02, \u83b2\u6c60\u533a (Lianchi), \u4fdd\u5b9a\u5e02, \u6cb3\u5317\u7701, 071000, \u4e2d\u56fd", "38.87604460", "115.49738730", "edu", ""], ["Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)", "", "University of California, Los Angeles", "University of California, Los Angeles", "200 UCLA, Medical Plaza Driveway Suite 540, Los Angeles, CA 90095, USA", "34.06877880", "-118.44500940", "edu", ""], ["Neural Self Talk: Image Understanding via Continuous Questioning and Answering", "", "University of Maryland", "University of Maryland", "The Grand Garage, 5, North Paca Street, Seton Hill, Baltimore, Maryland, 21201, USA", "39.28996850", "-76.62196103", "edu", ""], ["Learning Like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images", "", "University of California, Los Angeles", "University of California, Los Angeles", "200 UCLA, Medical Plaza Driveway Suite 540, Los Angeles, CA 90095, USA", "34.06877880", "-118.44500940", "edu", ""], ["Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding", "University of Washington", "University of Washington", "University of Washington", "University of Washington, Rainier Vista, Montlake, University District, Seattle, King County, Washington, 98195, USA", "47.65432380", "-122.30800894", "edu", ""], ["Batch-normalized recurrent highway networks", "", "Rochester Institute of Technology", "Rochester Institute of Technology", "Rochester Institute of Technology (RIT), 1, Lomb Memorial Drive, Bailey, Henrietta Town, Monroe County, New York, 14623, USA", "43.08250655", "-77.67121663", "edu", ""], ["Beyond Object Recognition: Visual Sentiment Analysis with Deep Coupled Adjective and Noun Neural Networks", "", "Microsoft Research Asia", "Microsoft Live Labs Research, China", "Microsoft Research Asia", "35.86166000", "104.19539700", "company", ""]]}
+\ No newline at end of file