Inglês | Coreano | Francês | Chinês | Japonês | Português Brasileiro
Existem muitos tradutores automáticos de mangá. Pouquíssimos suportam adequadamente quadrinhos de outros tipos em outros idiomas. Este projeto foi criado para utilizar a habilidade de grandes modelos de linguagem (LLMs) do estado da arte (SOTA), como o GPT-4, e traduzir quadrinhos de todo o mundo. Atualmente, suporta traduções de e para inglês, coreano, japonês, francês, chinês simplificado, chinês tradicional, russo, alemão, holandês, espanhol e italiano. Também é possível traduzir para (mas não de) turco, polonês, português e português brasileiro.
Para algumas dezenas de idiomas, o melhor tradutor automático não é o Google Tradutor, o Papago ou mesmo o DeepL, mas um grande modelo de linguagem (LLM) do estado da arte (SOTA) como o GPT-4o, e por muito. Isso é muito aparente para pares de línguas distantes (Coreano<->Inglês, Japonês<->Inglês, etc), onde outros tradutores ainda frequentemente se tornam incoerentes. Trecho de "A Prática da Caminhada"(보행 연습) de Dolki Min(돌기민)
GPT-4 como Tradutor. Nota: Alguns destes também têm traduções oficiais em inglês
Frieren e a Jornada para o Além
Instale o Python (<=3.10). Marque "Add python.exe to PATH" durante a instalação.
https://www.python.org/downloads/
Clone o repositório (ou baixe a pasta), navegue até a pasta
git clone https://github.com/ogkalu2/comic-translate
cd comic-translate
e instale as dependências
pip install -r requirements.txt
Se você encontrar algum problema, você pode tentar executar em um ambiente virtual. Abra o terminal/cmd no diretório que você deseja instalar o ambiente virtual (ou cd 'path/para/ambiente/ambiente/virtual/pasta'). Crie seu ambiente virtual com:
python -m venv comic-translate-venv
Agora ative o ambiente virtual. No Windows:
comic-translate-venv\Scripts\activate
No Mac e Linux:
source comic-translate-venv/bin/activate
Agora você pode rodar os comandos de instalação novamente. Quando você terminar de usar o aplicativo, você pode desativar o ambiente virtual com:
deactivate
Para reativar, use os mesmos comandos com o terminal na pasta onde o ambiente virtual está localizado.
Se você tiver uma GPU NVIDIA, é recomendado executar
pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
Nota: O 121 em +cu121 representa a versão do CUDA - 12.1. Substitua 121 com a sua versão do CUDA. Ex: 118 se você estiver rodando o CUDA 11.8
No diretório comic-translate, execute
python comic.py
Isso iniciará a GUI
- Se você tiver um arquivo CBR, precisará instalar o Winrar ou 7-Zip e adicionar a pasta onde está instalado (ex: "C:\Program Files\WinRAR" no Windows) ao Path. Se estiver instalado, mas não no Path, você poderá receber o erro:
raise RarCannotExec("Cannot find working tool")
Nesse caso, instruções para Windows, Linux, Mac
- Certifique-se de que a fonte selecionada suporte caracteres do idioma de destino
- A versão 2.0 introduz um Modo Manual. Quando você encontrar problemas no Modo Automático (Nenhum texto detectado, OCR incorreto, limpeza insuficiente, etc), você pode fazer correções. Basta desfazer a imagem e ativar o Modo Manual.
- No Modo Automático, uma vez que uma imagem tenha sido processada, ela é carregada no Visualizador ou armazenada para ser carregada na troca, assim você pode continuar lendo no aplicativo enquanto as outras imagens estão sendo traduzidas.
- Ctrl + Scroll para ampliar, caso contrário, scroll vertical
- Os gestos usuais do trackpad funcionam para visualizar a imagem
- Setas direita e esquerda para navegar entre imagens
As seguintes opções exigirão acesso a recursos fechados e, subsequentemente, Chaves de API:
- GPT-4o ou 4o-mini para Tradução (Pago, cerca de $0.01 USD/Página para 4o)
- Tradutor DeepL (Grátis até 500.000 caracteres/mês)
- GPT-4o para OCR (Opção padrão para Francês, Russo, Alemão, Holandês, Espanhol e Italiano) (Pago, cerca de $0.02 USD/Página)
- Microsoft Azure Vision para OCR (Grátis até 5000 imagens/mês)
- Google Cloud Vision para OCR (Grátis até 1000 imagens/mês) Você pode definir suas Chaves de API indo para Configurações > Credenciais
- Vá ao site da Plataforma OpenAI em platform.openai.com e faça login com (ou crie) uma conta OpenAI.
- Passe o mouse sobre a barra de tarefas direita da página e selecione "API Keys."
- Clique em "Create New Secret Key" para gerar uma nova chave de API. Copie e armazene.
- Faça login/crie uma conta Google Cloud. Vá para Cloud Resource Manager e clique em "Create Project". Defina o nome do seu projeto.
- Selecione o seu projeto aqui depois selecione "Billing" e "Create Account". No pop-up, "Enable billing account", e aceite a oferta de uma conta de teste gratuita. O "Account type" deve ser individual. Preencha com um cartão de crédito válido.
- Habilite o Google Cloud Vision para o seu projeto aqui
- Ná pagina Google Cloud Credentials, clique em "Create Credentials" e depois em API Key. Copie e armazene.
speech-bubble-detector, text-segmenter. Dois modelos yolov8m treinados em 8k e 3k imagens de quadrinhos (Manga, Webtoons, Faroeste), respectivamente.
Por padrão:
- EasyOCR para Inglês
- manga-ocr para Japonês
- Pororo para Coreano
- PaddleOCR para Chinês
- GPT-4o para Francês, Russo, Alemão, Holandês, Espanhol e Italiano. Pago, requer uma Chave de API.
Opcional:
Estes podem ser usados para qualquer um dos idiomas suportados. É necessária uma Chave de API.
Um checkpoint de LaMa finetuned para Manga/Anime para remover o texto detectado pelo segmentador. Implementação cortesia de lama-cleaner
Atualmente, suporta o uso de GPT-4o, GPT-4o mini, DeepL, Claude-3-Opus, Claude-3.5-Sonnet, Claude-3-Haiku, Gemini-1.5-Flash, Gemini-1.5-Pro, Yandex, Google Tradutor e Microsoft Translator.
Todos os LLMs recebem o texto da página inteira para auxiliar nas traduções. Há também a opção de fornecer a própria imagem para mais contexto.
PIL para renderizar o texto envolto em caixas delimitadoras obtidas de balões e texto.