intro: “This current code can get 58.16 on Open-Ended and 63.09 on Multiple-Choice on test-standard split”
github: https://github.com/VT-vision-lab/VQA_LSTM_CNN

A Neural Network for Factoid Question Answering over Paragraphs

project page: http://cs.umd.edu/~miyyer/qblearn/
paper: https://cs.umd.edu/~miyyer/pubs/2014_qb_rnn.pdf
code+data: https://cs.umd.edu/~miyyer/qblearn/qanta.tar.gz

Learning to Compose Neural Networks for Question Answering

intro: NAACL 2016 Best paper
arxiv: http://arxiv.org/abs/1601.01705

Generating Natural Questions About an Image

arxiv: http://arxiv.org/abs/1603.06059

Question Answering on Freebase via Relation Extraction and Textual Evidence

intro: ACL 2016
arxiv: https://arxiv.org/abs/1603.00957
github: https://github.com/syxu828/QuestionAnsweringOverFB

Generating Factoid Questions With Recurrent Neural Networks: The 30M Factoid Question-Answer Corpus

arxiv: http://arxiv.org/abs/1603.06807

Character-Level Question Answering with Attention

arxiv: http://arxiv.org/abs/1604.00727
comment(by @Wenpeng_Yin): “fancy model with minor improvement”

A Focused Dynamic Attention Model for Visual Question Answering

arxiv: http://arxiv.org/abs/1604.01485

Visual Question Answering Literature Survey

blog: http://iamaaditya.github.io/research/literature/

The DIY Guide to Visual Question Answering

github: https://github.com/jxieeducation/DIY-Data-Science/blob/master/research/visual_qa.md

Question Answering via Integer Programming over Semi-Structured Knowledge

arxiv: http://arxiv.org/abs/1604.06076
github: https://github.com/allenai/tableilp
youtube: https://www.youtube.com/watch?v=7NS53icQRrs

Hierarchical Question-Image Co-Attention for Visual Question Answering

arxiv: http://arxiv.org/abs/1606.00061
github: https://github.com/jiasenlu/HieCoAttenVQA

Multimodal Residual Learning for Visual QA

arxiv: http://arxiv.org/abs/1606.01455

Simple Question Answering by Attentive Convolutional Neural Network

arxiv: http://arxiv.org/abs/1606.03391

Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?

homepage: https://computing.ece.vt.edu/~abhshkdz/vqa-hat/
arxiv: http://arxiv.org/abs/1606.03556

Simple and Effective Question Answering with Recurrent Neural Networks

arxiv: http://arxiv.org/abs/1606.05029

Analyzing the Behavior of Visual Question Answering Models

arxiv: http://arxiv.org/abs/1606.07356

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

arxiv: https://arxiv.org/abs/1606.01847
github: https://github.com/akirafukui/vqa-mcb

Deep Language Modeling for Question Answering using Keras

Interpreting Visual Question Answering Models

arxiv: http://arxiv.org/abs/1608.08974

The Color of the Cat is Gray: 1 Million Full-Sentences Visual Question Answering

intro: FSVQA
arxiv: http://arxiv.org/abs/1609.06657

Tutorial on Answering Questions about Images with Deep Learning

intro: The tutorial was presented at ‘2nd Summer School on Integrating Vision and Language: Deep Learning’ in Malta, 2016
arxiv: https://arxiv.org/abs/1610.01076

Hadamard Product for Low-rank Bilinear Pooling

arxiv: https://arxiv.org/abs/1610.04325
github: https://github.com/jnhwkim/MulLowBiVQA

Open-Ended Visual Question-Answering

intro: Bachelor thesis report graded with A with honours at ETSETB Telecom BCN school, Universitat Polit`ecnica de Catalunya (UPC). June 2016
project page: http://imatge-upc.github.io/vqa-2016-cvprw/
arxiv: https://arxiv.org/abs/1610.02692
slides: http://www.slideshare.net/xavigiro/openended-visual-questionanswering
github: https://github.com/imatge-upc/vqa-2016-cvprw

Deep Learning for Question Answering

intro: UMD. Mohit Iyyer.
intro: Recurrent Neural Networks, Recursive Neural Network
slides: http://cs.umd.edu/~miyyer/data/deepqa.pdf

Dual Attention Networks for Multimodal Reasoning and Matching

arxiv: https://arxiv.org/abs/1611.00471

Leveraging Video Descriptions to Learn Video Question Answering

intro: AAAI 2017
arxiv: https://arxiv.org/abs/1611.04021

Dynamic Coattention Networks For Question Answering

arxiv: https://arxiv.org/abs/1611.01604

State of the art deep learning model for question answering

blog: http://metamind.io/research/state-of-the-art-deep-learning-model-for-question-answering/

Zero-Shot Visual Question Answering

arxiv: https://arxiv.org/abs/1611.05546

Image-Grounded Conversations: Multimodal Context for Natural Question and Response Generation

intro: University of Rochester & Microsoft & University College London
arxiv: https://arxiv.org/abs/1701.08251

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

intro: Seoul National University & University of Washington
arxiv: https://arxiv.org/abs/1702.02171

Question Answering from Unstructured Text by Retrieval and Comprehension

Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering

intro: Google Research
arxiv: https://arxiv.org/abs/1704.03162

Learning to Reason: End-to-End Module Networks for Visual Question Answering

intro: UC Berkeley, Boston University
arxiv: https://arxiv.org/abs/1704.05526

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

intro: CVPR 2017.Seoul National University & Yahoo Research
arxiv: https://arxiv.org/abs/1704.04497
github: https://github.com/YunseokJANG/tgif-qa

Question Answering on Knowledge Bases and Text using Universal Schema and Memory Networks

intro: ACL 2017 (short)
project page: https://rajarshd.github.io/TextKBQA/
arxiv: https://arxiv.org/abs/1704.08384
github: https://github.com/rajarshd/TextKBQA

Learning Convolutional Text Representations for Visual Question Answering

arxiv: https://arxiv.org/abs/1705.06824
github: https://github.com/divelab/vqa-text

Compact Tensor Pooling for Visual Question Answering

https://arxiv.org/abs/1706.06706

DeepStory: Video Story QA by Deep Embedded Memory Networks

intro: IJCAI 2017. Seoul National University
arxiv: https://arxiv.org/abs/1707.00836

Long-Term Memory Networks for Question Answering

intro: SUNY Buffalo & LinkedIn & LinkedIn
arxiv: https://arxiv.org/abs/1707.01961

Video Question Answering via Attribute-Augmented Attention Network Learning

intro: SIGIR 2017
arxiv: https://arxiv.org/abs/1707.06355

Bottom-Up and Top-Down Attention for Image Captioning and VQA

https://arxiv.org/abs/1707.07998

Structured Attentions for Visual Question Answering

intro: ICCV 2017
arxiv: https://arxiv.org/abs/1708.02071
github: https://github.com/zhuchen03/vqa-sva

Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

intro: Winner of the 2017 Visual Question Answering (VQA) Challenge at CVPR
intro: The University of Adelaide & Australian National University & Microsoft Research
arxiv: https://arxiv.org/abs/1708.02711

MemexQA: Visual Memex Question Answering