Refactor classes with package by feature

endlessdev · endlessdev · commit 732e691c057e · 2018-05-02T22:04:52.000+09:00
diff --git a/src/main/java/us/narin/summarizer/Summarizer.java b/src/main/java/us/narin/summarizer/Summarizer.java
@@ -1,112 +1,31 @@
 package us.narin.summarizer;
 
-import kr.bydelta.koala.data.Morpheme;
-import kr.bydelta.koala.data.Sentence;
-import kr.bydelta.koala.data.Word;
-import kr.bydelta.koala.hnn.SentenceSplitter;
-import kr.bydelta.koala.hnn.Tagger;
-import org.jgrapht.alg.interfaces.VertexScoringAlgorithm;
-import org.jgrapht.alg.scoring.PageRank;
-import org.jgrapht.graph.DefaultWeightedEdge;
-import org.jgrapht.graph.SimpleWeightedGraph;
-import scala.collection.Iterator;
-import us.narin.summarizer.utils.ListUtils;
+import us.narin.summarizer.graph.GraphBuilder;
+import us.narin.summarizer.sentence.SentenceSource;
+import us.narin.summarizer.sentence.ranker.SentenceRanker;
 
 import java.util.*;
 import java.util.stream.Collectors;
 
 public class Summarizer {
 
-    private Tagger tagger;
-    private SentenceSplitter sentenceSplitter;
     private String content;
-    private List<String> splitSentenceList;
 
     public Summarizer(String content) {
         this.content = content;
-        this.tagger = new Tagger();
-        this.sentenceSplitter = new SentenceSplitter();
-        this.splitSentenceList = new ArrayList<>();
     }
 
-    List<String> summarize() {
-        return getRankedSentences().stream().map(Map.Entry::getKey).collect(Collectors.toList());
-    }
-
-    private Map<String, List<String>> extractSentences(List<String> splitSentenceList) {
-
-        final Map<String, List<String>> parsedSentence = new LinkedHashMap<>();
+    public List<String> summarize() {
+        final SentenceSource sentenceSource = new SentenceSource(content);
 
-        for (String sentence : splitSentenceList) {
-            Sentence analyzedSentence = tagger.tagSentence(sentence);
-            Iterator iterator = analyzedSentence.words().iterator();
-            List<String> detectedNouns = new ArrayList<>();
+        final List<String> sentences = sentenceSource.getSentences();
+        final Map<String, List<String>> extractedSentences = sentenceSource.getExtractedSentences();
 
-            while (iterator.hasNext()) {
-                Word word = (Word) iterator.next();
-                Iterator wordIterator = word.iterator();
+        final GraphBuilder graphBuilder = new GraphBuilder(extractedSentences);
 
-                while (wordIterator.hasNext()) {
-                    Morpheme morpheme = (Morpheme) wordIterator.next();
-                    if (morpheme.isNoun()) {
-                        String plainWord = morpheme.toString().split("/")[0];
-                        detectedNouns.add(plainWord);
-                    }
-                }
-            }
-            parsedSentence.put(sentence, detectedNouns);
-        }
-        return parsedSentence;
+        return new SentenceRanker(sentences, graphBuilder.build()).getRankedSentences()
+                .stream().map(Map.Entry::getKey).collect(Collectors.toList());
     }
-
-    private SimpleWeightedGraph<String, DefaultWeightedEdge> buildGraph() {
-
-        SimpleWeightedGraph<String, DefaultWeightedEdge> graph = new SimpleWeightedGraph<>(DefaultWeightedEdge.class);
-
-        splitSentenceList = sentenceSplitter
-                .jSentences(content)
-                .stream()
-                .map(String::trim)
-                .collect(Collectors.toList());
-
-        Map<String, List<String>> parsedSentence = extractSentences(splitSentenceList);
-        splitSentenceList.forEach(graph::addVertex);
-
-        for (Map.Entry<String, List<String>> entrySource : parsedSentence.entrySet()) {
-            for (Map.Entry<String, List<String>> entryTarget : parsedSentence.entrySet()) {
-                if (!Objects.equals(entrySource.getKey(), entryTarget.getKey())) {
-
-                    float similarity = getSimilarity(entrySource, entryTarget);
-
-                    if (similarity > 0 && graph.getEdge(entrySource.getKey(), entryTarget.getKey()) == null) {
-                        DefaultWeightedEdge e = graph.addEdge(entrySource.getKey(), entryTarget.getKey());
-                        graph.setEdgeWeight(e, similarity);
-                    }
-                }
-            }
-        }
-        return graph;
-    }
-
-    private List<Map.Entry<String, Double>> getRankedSentences() {
-        VertexScoringAlgorithm<String, Double> pageRank = new PageRank<>(buildGraph());
-        return pageRank.getScores().entrySet()
-                .stream()
-                .sorted((o1, o2) -> o1.getValue() < o2.getValue() ? 1 : -1)
-                .limit(3)
-                .collect(Collectors.toList())
-                .stream()
-                .sorted((source, target) ->
-                        splitSentenceList.indexOf(source.getKey()) > splitSentenceList.indexOf(target.getKey()) ? 1 : -1)
-                .collect(Collectors.toList());
-
-    }
-
-    private float getSimilarity(Map.Entry<String, List<String>> entrySource, Map.Entry<String, List<String>> entryTarget) {
-        List<String> intersection = ListUtils.intersection(entrySource.getValue(), entryTarget.getValue());
-        return (float) intersection.size() / (float) (Math.sqrt(entrySource.getValue().size()) * Math.sqrt(entryTarget.getValue().size()));
-    }
-
 }
 
 
diff --git a/src/main/java/us/narin/summarizer/graph/GraphBuilder.java b/src/main/java/us/narin/summarizer/graph/GraphBuilder.java
@@ -0,0 +1,41 @@
+package us.narin.summarizer.graph;
+
+
+import org.jgrapht.graph.DefaultWeightedEdge;
+import org.jgrapht.graph.SimpleWeightedGraph;
+import us.narin.summarizer.sentence.similarity.Similarity;
+import us.narin.summarizer.sentence.similarity.SimilarityManager;
+
+import java.util.List;
+import java.util.Map;
+import java.util.Objects;
+
+public class GraphBuilder {
+    private Map<String, List<String>> extractedSentences;
+
+    public GraphBuilder(Map<String, List<String>> extractedSentences) {
+        this.extractedSentences = extractedSentences;
+    }
+
+    public SimpleWeightedGraph<String, DefaultWeightedEdge> build(){
+        final SimpleWeightedGraph<String, DefaultWeightedEdge> graph = new SimpleWeightedGraph<>(DefaultWeightedEdge.class);
+
+        extractedSentences.forEach((s, strings) -> graph.addVertex(s));
+
+        for (Map.Entry<String, List<String>> entrySource : extractedSentences.entrySet()) {
+            for (Map.Entry<String, List<String>> entryTarget : extractedSentences.entrySet()) {
+                if (!Objects.equals(entrySource.getKey(), entryTarget.getKey())) {
+
+                    final float similarity = new SimilarityManager(entrySource, entryTarget).getSimilarity(Similarity.SIMILARITY_COSINE);
+
+                    if (similarity > 0 && graph.getEdge(entrySource.getKey(), entryTarget.getKey()) == null) {
+                        DefaultWeightedEdge e = graph.addEdge(entrySource.getKey(), entryTarget.getKey());
+                        graph.setEdgeWeight(e, similarity);
+                    }
+                }
+            }
+        }
+        return graph;
+    }
+
+}
diff --git a/src/main/java/us/narin/summarizer/sentence/SentenceSource.java b/src/main/java/us/narin/summarizer/sentence/SentenceSource.java
@@ -0,0 +1,60 @@
+package us.narin.summarizer.sentence;
+
+import kr.bydelta.koala.data.Morpheme;
+import kr.bydelta.koala.data.Sentence;
+import kr.bydelta.koala.data.Word;
+import kr.bydelta.koala.hnn.SentenceSplitter;
+import kr.bydelta.koala.hnn.Tagger;
+import scala.collection.Iterator;
+
+import java.util.ArrayList;
+import java.util.LinkedHashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.stream.Collectors;
+
+/**
+ * Created by endlessdev on 8/23/17.
+ */
+public class SentenceSource {
+    private String article;
+
+    public SentenceSource(String article) {
+        this.article = article;
+    }
+
+    public List<String> getSentences() {
+        final SentenceSplitter sentenceSplitter = new SentenceSplitter();
+        return sentenceSplitter.jSentences(this.article)
+                .stream()
+                .map(String::trim)
+                .collect(Collectors.toList());
+    }
+
+    public Map<String, List<String>> getExtractedSentences() {
+        final Tagger tagger = new Tagger();
+        final Map<String, List<String>> parsedSentence = new LinkedHashMap<>();
+
+        for (String sentence : getSentences()) {
+            Sentence analyzedSentence = tagger.tagSentence(sentence);
+            Iterator iterator = analyzedSentence.words().iterator();
+            List<String> detectedNouns = new ArrayList<>();
+
+            while (iterator.hasNext()) {
+                Word word = (Word) iterator.next();
+                Iterator wordIterator = word.iterator();
+
+                while (wordIterator.hasNext()) {
+                    Morpheme morpheme = (Morpheme) wordIterator.next();
+                    if (morpheme.isNoun()) {
+                        String plainWord = morpheme.toString().split("/")[0];
+                        detectedNouns.add(plainWord);
+                    }
+                }
+            }
+            parsedSentence.put(sentence, detectedNouns);
+        }
+        return parsedSentence;
+    }
+
+}
diff --git a/src/main/java/us/narin/summarizer/sentence/ranker/SentenceRanker.java b/src/main/java/us/narin/summarizer/sentence/ranker/SentenceRanker.java
@@ -0,0 +1,33 @@
+package us.narin.summarizer.sentence.ranker;
+
+import org.jgrapht.alg.interfaces.VertexScoringAlgorithm;
+import org.jgrapht.alg.scoring.PageRank;
+import org.jgrapht.graph.DefaultWeightedEdge;
+import org.jgrapht.graph.SimpleWeightedGraph;
+
+import java.util.List;
+import java.util.Map;
+import java.util.stream.Collectors;
+
+public class SentenceRanker {
+    private List<String> sentences;
+    private SimpleWeightedGraph<String, DefaultWeightedEdge> graph;
+
+    public SentenceRanker(List<String> sentences, SimpleWeightedGraph<String, DefaultWeightedEdge> graph) {
+        this.sentences = sentences;
+        this.graph = graph;
+    }
+
+    public List<Map.Entry<String, Double>> getRankedSentences() {
+        VertexScoringAlgorithm<String, Double> pageRank = new PageRank<>(graph);
+        return pageRank.getScores().entrySet()
+                .stream()
+                .sorted((o1, o2) -> o1.getValue() < o2.getValue() ? 1 : -1)
+                .limit(3)
+                .collect(Collectors.toList())
+                .stream()
+                .sorted((source, target) ->
+                        sentences.indexOf(source.getKey()) > sentences.indexOf(target.getKey()) ? 1 : -1)
+                .collect(Collectors.toList());
+    }
+}
diff --git a/src/main/java/us/narin/summarizer/sentence/similarity/Similarity.java b/src/main/java/us/narin/summarizer/sentence/similarity/Similarity.java
@@ -0,0 +1,5 @@
+package us.narin.summarizer.sentence.similarity;
+
+public enum Similarity {
+    SIMILARITY_COSINE, SIMILARITY_JACCARD
+}
diff --git a/src/main/java/us/narin/summarizer/sentence/similarity/SimilarityManager.java b/src/main/java/us/narin/summarizer/sentence/similarity/SimilarityManager.java
@@ -0,0 +1,38 @@
+package us.narin.summarizer.sentence.similarity;
+
+import us.narin.summarizer.set.SetOperator;
+
+import java.util.List;
+import java.util.Map;
+
+public class SimilarityManager {
+    private Map.Entry<String, List<String>> entrySource;
+    private Map.Entry<String, List<String>> entryTarget;
+
+    public SimilarityManager(Map.Entry<String, List<String>> entrySource, Map.Entry<String, List<String>> entryTarget) {
+        this.entrySource = entrySource;
+        this.entryTarget = entryTarget;
+    }
+
+    public float getSimilarity(Similarity similarity){
+        switch (similarity){
+            case SIMILARITY_COSINE:
+                return getCosineSimilarity();
+            case SIMILARITY_JACCARD:
+                return getJaccardSimilarity();
+        }
+        return getJaccardSimilarity();
+    }
+
+    private float getCosineSimilarity() {
+        final List<String> intersection = SetOperator.intersection(entrySource.getValue(), entryTarget.getValue());
+        return (float) intersection.size() / (float) (Math.sqrt(entrySource.getValue().size()) * Math.sqrt(entryTarget.getValue().size()));
+    }
+
+    private float getJaccardSimilarity() {
+        final List<String> intersection = SetOperator.intersection(entrySource.getValue(), entryTarget.getValue());
+        final List<String> union = SetOperator.union(entrySource.getValue(), entryTarget.getValue());
+        return (float) intersection.size() / (float) union.size();
+    }
+
+}
diff --git a/src/main/java/us/narin/summarizer/set/SetOperator.java b/src/main/java/us/narin/summarizer/set/SetOperator.java
@@ -1,4 +1,4 @@
-package us.narin.summarizer.utils;
+package us.narin.summarizer.set;
 
 import java.util.ArrayList;
 import java.util.HashSet;
@@ -9,7 +9,7 @@
  * Created by endlessdev on 7/8/17.
  */
 
-public class ListUtils {
+public class SetOperator {
 
     public static <T> List<T> union(List<T> list1, List<T> list2) {
         Set<T> set = new HashSet<>();
diff --git a/src/main/java/us/narin/summarizer/utils/CLI.java b/src/main/java/us/narin/summarizer/utils/CLI.java
@@ -1,6 +1,7 @@
-package us.narin.summarizer;
+package us.narin.summarizer.utils;
 
 import org.json.JSONArray;
+import us.narin.summarizer.Summarizer;
 
 /**
  * Created by endlessdev on 7/28/17.