ady-yu
diff --git a/‎config.py‎
Lines changed: 114 additions & 0 deletions b/‎config.py‎
Lines changed: 114 additions & 0 deletions
diff --git a/‎download.sh‎
Lines changed: 17 additions & 0 deletions b/‎download.sh‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎func.py‎
Lines changed: 87 additions & 0 deletions b/‎func.py‎
Lines changed: 87 additions & 0 deletions
diff --git a/‎main.py‎
Lines changed: 152 additions & 0 deletions b/‎main.py‎
Lines changed: 152 additions & 0 deletions
@@ -0,0 +1,114 @@
+import os
+import tensorflow as tf
+
+from prepro import prepro
+from main import train, test
+
+flags = tf.flags
+
+os.environ["CUDA_VISIBLE_DEVICES"] = "0"
+
+home = os.path.expanduser("~")
+train_file = os.path.join(home, "data", "squad", "train-v1.1.json")
+dev_file = os.path.join(home, "data", "squad", "dev-v1.1.json")
+test_file = os.path.join(home, "data", "squad", "dev-v1.1.json")
+glove_file = os.path.join(home, "data", "glove", "glove.840B.300d.txt")
+
+target_dir = "data"
+log_dir = "log/event"
+save_dir = "log/model"
+train_record_file = os.path.join(target_dir, "train.tfrecords")
+dev_record_file = os.path.join(target_dir, "dev.tfrecords")
+test_record_file = os.path.join(target_dir, "test.tfrecords")
+word_emb_file = os.path.join(target_dir, "word_emb.json")
+char_emb_file = os.path.join(target_dir, "char_emb.json")
+train_eval = os.path.join(target_dir, "train_eval.json")
+dev_eval = os.path.join(target_dir, "dev_eval.json")
+test_eval = os.path.join(target_dir, "test_eval.json")
+test_meta = os.path.join(target_dir, "test_meta.json")
+
+if not os.path.exists(target_dir):
+    os.makedirs(target_dir)
+if not os.path.exists(log_dir):
+    os.makedirs(log_dir)
+if not os.path.exists(save_dir):
+    os.makedirs(save_dir)
+
+flags.DEFINE_string("mode", "train", "Running mode")
+
+flags.DEFINE_string("target_dir", target_dir, "Target directory for out data")
+flags.DEFINE_string("log_dir", log_dir, "Directory for tf event")
+flags.DEFINE_string("save_dir", save_dir, "Directory for saving model")
+flags.DEFINE_string("train_file", train_file, "Train source file")
+flags.DEFINE_string("dev_file", dev_file, "Dev source file")
+flags.DEFINE_string("test_file", test_file, "Test source file")
+flags.DEFINE_string("glove_file", glove_file, "Glove source file")
+
+flags.DEFINE_string("train_record_file", train_record_file,
+                    "Out file for train data")
+flags.DEFINE_string("dev_record_file", dev_record_file,
+                    "Out file for dev data")
+flags.DEFINE_string("test_record_file", test_record_file,
+                    "Out file for test data")
+flags.DEFINE_string("word_emb_file", word_emb_file,
+                    "Out file for word embedding")
+flags.DEFINE_string("char_emb_file", char_emb_file,
+                    "Out file for char embedding")
+flags.DEFINE_string("train_eval_file", train_eval, "Out file for train eval")
+flags.DEFINE_string("dev_eval_file", dev_eval, "Out file for dev eval")
+flags.DEFINE_string("test_eval_file", test_eval, "Out file for test eval")
+flags.DEFINE_string("test_meta", test_meta, "Out file for test meta")
+
+
+flags.DEFINE_integer("glove_size", int(2.2e6), "Corpus size for Glove")
+flags.DEFINE_integer("glove_dim", 300, "Embedding dimension for Glove")
+flags.DEFINE_integer("char_dim", 8, "Embedding dimension for char")
+
+flags.DEFINE_integer("para_limit", 400, "Limit length for paragraph")
+flags.DEFINE_integer("ques_limit", 30, "Limit length for question")
+flags.DEFINE_integer("char_limit", 16, "Limit length for character")
+flags.DEFINE_integer("word_count_limit", -1, "Min count for word")
+flags.DEFINE_integer("char_count_limit", -1, "Min count for char")
+
+flags.DEFINE_integer("min_after_deque", 10000, "Min examples after deque")
+flags.DEFINE_integer("num_threads", 4, "Number of threads in file queue")
+flags.DEFINE_integer("capacity", 12000, "Capacity of tfrecord queue")
+
+flags.DEFINE_integer("batch_size", 60, "Batch size")
+flags.DEFINE_integer("num_steps", 50000, "Number of steps")
+flags.DEFINE_integer("checkpoint", 1000,
+                     "checkpoint to save and evaluate the model")
+flags.DEFINE_integer("period", 100, "period to save batch loss")
+flags.DEFINE_integer("val_num_batches", 250,
+                     "Number of batches to evaluate the model")
+flags.DEFINE_float("init_lr", 0.5, "Initial learning rate for Adadelta")
+flags.DEFINE_float("keep_prob", 0.7, "Dropout keep prob between layers")
+flags.DEFINE_float("emb_keep_prob", 0.9,
+                   "Dropout keep porb for embedding layer")
+flags.DEFINE_float("grad_clip", 5.0, "Global Norm gradient clipping rate")
+flags.DEFINE_integer("hidden", 75, "Hidden size")
+flags.DEFINE_integer("char_hidden", 75, "GRU dimention for char")
+flags.DEFINE_integer("patience", 2, "Patience for learning rate decay")
+
+
+def main(_):
+    config = flags.FLAGS
+    if config.mode == "train":
+        train(config)
+    elif config.mode == "prepro":
+        prepro(config)
+    elif config.mode == "test":
+        test(config)
+    elif config.mode == "debug":
+        config.num_steps = 2
+        config.val_num_batches = 1
+        config.checkpoint = 1
+        config.period = 1
+        train(config)
+    else:
+        print("Unknown mode")
+        exit(0)
+
+
+if __name__ == "__main__":
+    tf.app.run()
@@ -0,0 +1,17 @@
+#!/usr/bin/env bash
+
+# Download SQuAD
+SQUAD_DIR=~/data/squad
+mkdir -p $SQUAD_DIR
+wget https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json -O $SQUAD_DIR/train-v1.1.json
+wget https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json -O $SQUAD_DIR/dev-v1.1.json
+
+
+# Download GloVe
+GLOVE_DIR=~/data/glove
+mkdir -p $GLOVE_DIR
+wget http://nlp.stanford.edu/data/glove.840B.300d.zip -O $GLOVE_DIR/glove.840B.300d.zip
+unzip $GLOVE_DIR/glove.840B.300d.zip -d $GLOVE_DIR
+
+# Download nltk language models
+python -m nltk.downloader 'punkt'
@@ -0,0 +1,87 @@
+import tensorflow as tf
+from tensorflow.python.ops.nn import bidirectional_dynamic_rnn
+from tensorflow.python.ops.rnn_cell import GRUCell
+
+INF = 1e30
+
+
+def stacked_gru(inputs, batch, hidden, num_layers, seq_len, keep_prob=1.0, is_train=None, concat_layers=True, dropout_output=False, dtype=tf.float32, scope="StackedGRU"):
+    with tf.variable_scope(scope):
+        outputs = [inputs]
+        for layer in range(num_layers):
+            with tf.variable_scope("Layer_{}".format(layer)):
+                cell_fw = GRUCell(hidden)
+                cell_bw = GRUCell(hidden)
+                d_inputs = dropout(
+                    outputs[-1], keep_prob=keep_prob, is_train=is_train)
+                (out_fw, out_bw), _ = bidirectional_dynamic_rnn(
+                    cell_fw, cell_bw, d_inputs, sequence_length=seq_len, dtype=dtype)
+                outputs.append(tf.concat([out_fw, out_bw], axis=2))
+        if concat_layers:
+            res = tf.concat(outputs[1:], axis=2)
+        else:
+            res = outputs[-1]
+        if dropout_output:
+            res = dropout(res, keep_prob=keep_prob, is_train=is_train)
+        return res
+
+
+def dropout(args, keep_prob, is_train, mode="recurrent"):
+    if keep_prob < 1.0:
+        noise_shape = None
+        shape = args.get_shape().as_list()
+        if mode == "embedding":
+            noise_shape = [shape[0], 1]
+        if mode == "recurrent":
+            noise_shape = [shape[0], 1, shape[-1]]
+        args = tf.cond(is_train, lambda: tf.nn.dropout(
+            args, keep_prob, noise_shape=noise_shape), lambda: args)
+    return args
+
+
+def softmax_mask(val, mask):
+    return -INF * (1 - tf.cast(mask, tf.float32)) + val
+
+
+def pointer(inputs, state, hidden, mask, scope="pointer", reuse=False):
+    with tf.variable_scope(scope):
+        u = tf.concat([tf.tile(tf.expand_dims(state, axis=1), [
+                      1, tf.shape(inputs)[1], 1]), inputs], axis=2)
+        s0 = tf.nn.tanh(tf.layers.dense(
+            u, hidden, use_bias=False, name="s0", reuse=reuse))
+        s = tf.layers.dense(s0, 1, use_bias=False, name="s", reuse=reuse)
+        s1 = softmax_mask(tf.squeeze(s, [2]), mask)
+        a = tf.expand_dims(tf.nn.softmax(s1), axis=2)
+        res = tf.reduce_sum(a * inputs, axis=1)
+        return res, s1
+
+
+def summ(memory, hidden, mask, scope="summ"):
+    with tf.variable_scope(scope):
+        s0 = tf.nn.tanh(tf.layers.dense(memory, hidden))
+        s = tf.layers.dense(s0, 1, use_bias=False)
+        s1 = softmax_mask(tf.squeeze(s, [2]), mask)
+        a = tf.expand_dims(tf.nn.softmax(s1), axis=2)
+        res = tf.reduce_sum(a * memory, axis=1)
+        return res
+
+
+def dot_attention(inputs, memory, mask, hidden, keep_prob=1.0, is_train=None, scope="dot_attention"):
+    with tf.variable_scope(scope):
+        d_inputs = dropout(inputs, keep_prob=keep_prob, is_train=is_train)
+        d_memory = dropout(memory, keep_prob=keep_prob, is_train=is_train)
+
+        JX = tf.shape(inputs)[1]
+        inputs_ = tf.layers.dense(d_inputs, hidden)
+        memory_ = tf.layers.dense(d_memory, hidden)
+
+        outputs = tf.matmul(inputs_, tf.transpose(
+            memory_, [0, 2, 1])) / hidden ** 0.5
+        mask = tf.tile(tf.expand_dims(mask, axis=1), [1, JX, 1])
+        logits = tf.nn.softmax(softmax_mask(outputs, mask))
+        outputs = tf.matmul(logits, memory)
+        res = tf.concat([inputs, outputs], axis=2)
+
+        dim = res.get_shape().as_list()[-1]
+        gate = tf.nn.sigmoid(tf.layers.dense(res, dim, use_bias=False))
+        return res * gate
@@ -0,0 +1,152 @@
+import tensorflow as tf
+import json
+import numpy as np
+from tqdm import tqdm
+import os
+
+from model import Model
+from util import create_batch, convert_tokens, evaluate
+
+
+def train(config):
+    with open(config.word_emb_file, "r") as fh:
+        word_mat = np.array(json.load(fh), dtype=np.float32)
+    with open(config.char_emb_file, "r") as fh:
+        char_mat = np.array(json.load(fh), dtype=np.float32)
+    with open(config.train_eval_file, "r") as fh:
+        train_eval_file = json.load(fh)
+    with open(config.dev_eval_file, "r") as fh:
+        dev_eval_file = json.load(fh)
+
+    print("Building model...")
+    train_batch = create_batch(config.train_record_file, config)
+    dev_batch = create_batch(config.dev_record_file, config)
+    with tf.variable_scope("model"):
+        model_train = Model(config, train_batch, word_mat, char_mat)
+        tf.get_variable_scope().reuse_variables()
+        model_dev = Model(config, dev_batch, word_mat,
+                          char_mat, trainable=False)
+
+    sess_config = tf.ConfigProto(allow_soft_placement=True)
+    sess_config.gpu_options.allow_growth = True
+
+    loss_save = 100.0
+    patience = 0
+    lr = config.init_lr
+
+    with tf.Session(config=sess_config) as sess:
+        writer = tf.summary.FileWriter(config.log_dir)
+        sess.run(tf.global_variables_initializer())
+        coord = tf.train.Coordinator()
+        threads = tf.train.start_queue_runners(coord=coord)
+        saver = tf.train.Saver()
+        sess.run(tf.assign(model_train.is_train,
+                           tf.constant(True, dtype=tf.bool)))
+        sess.run(tf.assign(model_train.lr, tf.constant(lr, dtype=tf.float32)))
+
+        for _ in tqdm(range(1, config.num_steps + 1)):
+            global_step = sess.run(model_train.global_step) + 1
+            loss, train_op = sess.run([model_train.loss, model_train.train_op])
+            if global_step % config.period == 0:
+                loss_sum = tf.Summary(value=[tf.Summary.Value(
+                    tag="model/loss", simple_value=loss), ])
+                writer.add_summary(loss_sum, global_step)
+            if global_step % config.checkpoint == 0:
+                sess.run(tf.assign(model_train.is_train,
+                                   tf.constant(False, dtype=tf.bool)))
+                _, summ = evaluate_batch(
+                    model_train, config.val_num_batches, train_eval_file, sess, "train")
+                for s in summ:
+                    writer.add_summary(s, global_step)
+
+                metrics, summ = evaluate_batch(
+                    model_dev, config.val_num_batches, dev_eval_file, sess, "dev")
+                sess.run(tf.assign(model_train.is_train,
+                                   tf.constant(True, dtype=tf.bool)))
+
+                dev_loss = metrics["loss"]
+                if dev_loss < loss_save:
+                    loss_save = dev_loss
+                    patience = 0
+                else:
+                    patience += 1
+                if patience >= config.patience:
+                    lr /= 2.0
+                    loss_save = dev_loss
+                    patience = 0
+                sess.run(tf.assign(model_train.lr,
+                                   tf.constant(lr, dtype=tf.float32)))
+                for s in summ:
+                    writer.add_summary(s, global_step)
+                writer.flush()
+                filename = os.path.join(
+                    config.save_dir, "model_{}.ckpt".format(global_step))
+                saver.save(sess, filename)
+        coord.request_stop()
+        coord.join(threads)
+
+
+def test(config):
+    with open(config.word_emb_file, "r") as fh:
+        word_mat = np.array(json.load(fh), dtype=np.float32)
+    with open(config.char_emb_file, "r") as fh:
+        char_mat = np.array(json.load(fh), dtype=np.float32)
+    with open(config.test_eval_file, "r") as fh:
+        eval_file = json.load(fh)
+    with open(config.test_meta, "r") as fh:
+        meta = json.load(fh)
+
+    total = meta["total"]
+
+    print("Loading model...")
+    test_batch = create_batch(config.test_record_file, config, test=True)
+    with tf.variable_scope("model"):
+        model = Model(config, test_batch, word_mat, char_mat, trainable=False)
+
+    sess_config = tf.ConfigProto(allow_soft_placement=True)
+    sess_config.gpu_options.allow_growth = True
+
+    with tf.Session(config=sess_config) as sess:
+        init_op = tf.group(tf.global_variables_initializer(),
+                           tf.local_variables_initializer())
+        sess.run(init_op)
+        coord = tf.train.Coordinator()
+        threads = tf.train.start_queue_runners(coord=coord)
+        saver = tf.train.Saver()
+        saver.restore(sess, tf.train.latest_checkpoint(config.save_dir))
+        sess.run(tf.assign(model.is_train, tf.constant(False, dtype=tf.bool)))
+        losses = []
+        answer_dict = {}
+        for step in tqdm(range(total // config.batch_size)):
+            qa_id, loss, yp1, yp2 = sess.run(
+                [model.qa_id, model.loss, model.yp1, model.yp2])
+            answer_dict.update(convert_tokens(
+                eval_file, qa_id.tolist(), yp1.tolist(), yp2.tolist()))
+            losses.append(loss)
+        coord.request_stop()
+        coord.join(threads)
+        loss = np.mean(losses)
+        metrics = evaluate(eval_file, answer_dict)
+        print("Exact Match: {}, F1: {}".format(
+            metrics['exact_match'], metrics['f1']))
+
+
+def evaluate_batch(model, num_batches, eval_file, sess, data_type):
+    answer_dict = {}
+    losses = []
+    for _ in tqdm(range(1, num_batches + 1)):
+        qa_id, loss, yp1, yp2, = sess.run(
+            [model.qa_id, model.loss, model.yp1, model.yp2])
+        answer_dict.update(convert_tokens(
+            eval_file, qa_id.tolist(), yp1.tolist(), yp2.tolist()))
+        losses.append(loss)
+    loss = np.mean(losses)
+    metrics = evaluate(eval_file, answer_dict)
+    metrics["loss"] = loss
+    loss_sum = tf.Summary(value=[tf.Summary.Value(
+        tag="{}/loss".format(data_type), simple_value=metrics["loss"]), ])
+    f1_sum = tf.Summary(value=[tf.Summary.Value(
+        tag="{}/f1".format(data_type), simple_value=metrics["f1"]), ])
+    em_sum = tf.Summary(value=[tf.Summary.Value(
+        tag="{}/em".format(data_type), simple_value=metrics["exact_match"]), ])
+    return metrics, [loss_sum, f1_sum, em_sum]