Tradução de Quadrinhos

Introdução

Existem muitos tradutores automáticos de mangá. Pouquíssimos suportam adequadamente quadrinhos de outros tipos em outros idiomas. Este projeto foi criado para utilizar a habilidade de grandes modelos de linguagem (LLMs) do estado da arte (SOTA), como o GPT-4, e traduzir quadrinhos de todo o mundo. Atualmente, suporta traduções de e para inglês, coreano, japonês, francês, chinês simplificado, chinês tradicional, russo, alemão, holandês, espanhol e italiano. Também é possível traduzir para (mas não de) turco, polonês, português e português brasileiro.

O Estado da Tradução Automática
Amostras
Primeiros passos
Como funciona
Agradecimentos

O Estado da Tradução Automática

Para algumas dezenas de idiomas, o melhor tradutor automático não é o Google Tradutor, o Papago ou mesmo o DeepL, mas um grande modelo de linguagem (LLM) do estado da arte (SOTA) como o GPT-4o, e por muito. Isso é muito aparente para pares de línguas distantes (Coreano<->Inglês, Japonês<->Inglês, etc), onde outros tradutores ainda frequentemente se tornam incoerentes. Trecho de "A Prática da Caminhada"(보행 연습) de Dolki Min(돌기민)

Amostras de Quadrinhos

GPT-4 como Tradutor. Nota: Alguns destes também têm traduções oficiais em inglês

Os Miseráveis do Alto-mar

Jornada ao Oeste

A Saga do Mundo dos Vermes

Frieren e a Jornada para o Além

Dias de Areia

Jogador (OH Hyeon-Jun)

Carbono e Silício

Instalação

Python

Instale o Python (<=3.10). Marque "Add python.exe to PATH" durante a instalação.

https://www.python.org/downloads/

Clone o repositório (ou baixe a pasta), navegue até a pasta

git clone https://github.com/ogkalu2/comic-translate
cd comic-translate

e instale as dependências

pip install -r requirements.txt

Se você encontrar algum problema, você pode tentar executar em um ambiente virtual. Abra o terminal/cmd no diretório que você deseja instalar o ambiente virtual (ou cd 'path/para/ambiente/ambiente/virtual/pasta'). Crie seu ambiente virtual com:

python -m venv comic-translate-venv

Agora ative o ambiente virtual. No Windows:

comic-translate-venv\Scripts\activate

No Mac e Linux:

source comic-translate-venv/bin/activate

Agora você pode rodar os comandos de instalação novamente. Quando você terminar de usar o aplicativo, você pode desativar o ambiente virtual com:

deactivate

Para reativar, use os mesmos comandos com o terminal na pasta onde o ambiente virtual está localizado.

Se você tiver uma GPU NVIDIA, é recomendado executar

pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

Nota: O 121 em +cu121 representa a versão do CUDA - 12.1. Substitua 121 com a sua versão do CUDA. Ex: 118 se você estiver rodando o CUDA 11.8

Uso

No diretório comic-translate, execute

python comic.py

Isso iniciará a GUI

Dicas

Se você tiver um arquivo CBR, precisará instalar o Winrar ou 7-Zip e adicionar a pasta onde está instalado (ex: "C:\Program Files\WinRAR" no Windows) ao Path. Se estiver instalado, mas não no Path, você poderá receber o erro:

raise RarCannotExec("Cannot find working tool")

Nesse caso, instruções para Windows, Linux, Mac

Certifique-se de que a fonte selecionada suporte caracteres do idioma de destino
A versão 2.0 introduz um Modo Manual. Quando você encontrar problemas no Modo Automático (Nenhum texto detectado, OCR incorreto, limpeza insuficiente, etc), você pode fazer correções. Basta desfazer a imagem e ativar o Modo Manual.
No Modo Automático, uma vez que uma imagem tenha sido processada, ela é carregada no Visualizador ou armazenada para ser carregada na troca, assim você pode continuar lendo no aplicativo enquanto as outras imagens estão sendo traduzidas.
Ctrl + Scroll para ampliar, caso contrário, scroll vertical
Os gestos usuais do trackpad funcionam para visualizar a imagem
Setas direita e esquerda para navegar entre imagens

Chaves de API

As seguintes opções exigirão acesso a recursos fechados e, subsequentemente, Chaves de API:

GPT-4o ou 4o-mini para Tradução (Pago, cerca de $0.01 USD/Página para 4o)
Tradutor DeepL (Grátis até 500.000 caracteres/mês)
GPT-4o para OCR (Opção padrão para Francês, Russo, Alemão, Holandês, Espanhol e Italiano) (Pago, cerca de $0.02 USD/Página)
Microsoft Azure Vision para OCR (Grátis até 5000 imagens/mês)
Google Cloud Vision para OCR (Grátis até 1000 imagens/mês) Você pode definir suas Chaves de API indo para Configurações > Credenciais

Obtendo Chaves de API

Open AI (GPT)

Vá ao site da Plataforma OpenAI em platform.openai.com e faça login com (ou crie) uma conta OpenAI.
Passe o mouse sobre a barra de tarefas direita da página e selecione "API Keys."
Clique em "Create New Secret Key" para gerar uma nova chave de API. Copie e armazene.

Google Cloud Vision

Faça login/crie uma conta Google Cloud. Vá para Cloud Resource Manager e clique em "Create Project". Defina o nome do seu projeto.
Selecione o seu projeto aqui depois selecione "Billing" e "Create Account". No pop-up, "Enable billing account", e aceite a oferta de uma conta de teste gratuita. O "Account type" deve ser individual. Preencha com um cartão de crédito válido.
Habilite o Google Cloud Vision para o seu projeto aqui
Ná pagina Google Cloud Credentials, clique em "Create Credentials" e depois em API Key. Copie e armazene.

Como funciona

Detecção de Balões de Fala e Segmentação de Texto

speech-bubble-detector, text-segmenter. Dois modelos yolov8m treinados em 8k e 3k imagens de quadrinhos (Manga, Webtoons, Faroeste), respectivamente.

OCR

Por padrão:

EasyOCR para Inglês
manga-ocr para Japonês
Pororo para Coreano
PaddleOCR para Chinês
GPT-4o para Francês, Russo, Alemão, Holandês, Espanhol e Italiano. Pago, requer uma Chave de API.

Opcional:

Estes podem ser usados para qualquer um dos idiomas suportados. É necessária uma Chave de API.

Google Cloud Vision
Microsoft Azure Vision

Inpainting

Um checkpoint de LaMa finetuned para Manga/Anime para remover o texto detectado pelo segmentador. Implementação cortesia de lama-cleaner

Tradução

Atualmente, suporta o uso de GPT-4o, GPT-4o mini, DeepL, Claude-3-Opus, Claude-3.5-Sonnet, Claude-3-Haiku, Gemini-1.5-Flash, Gemini-1.5-Pro, Yandex, Google Tradutor e Microsoft Translator.

Todos os LLMs recebem o texto da página inteira para auxiliar nas traduções. Há também a opção de fornecer a própria imagem para mais contexto.

Renderização de texto

PIL para renderizar o texto envolto em caixas delimitadoras obtidas de balões e texto.

Agradecimentos

https://github.com/ultralytics/ultralytics
https://github.com/Sanster/lama-cleaner
https://huggingface.co/dreMaz
https://github.com/yunwoong7/korean_ocr_using_pororo
https://github.com/kha-white/manga-ocr
https://github.com/JaidedAI/EasyOCR
https://github.com/PaddlePaddle/PaddleOCR

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_pt-BR.md

README_pt-BR.md

Tradução de Quadrinhos

Introdução

O Estado da Tradução Automática

Amostras de Quadrinhos

Instalação

Python

Uso

Dicas

Chaves de API

Obtendo Chaves de API

Open AI (GPT)

Google Cloud Vision

Como funciona

Detecção de Balões de Fala e Segmentação de Texto

OCR

Inpainting

Tradução

Renderização de texto

Agradecimentos

Files

README_pt-BR.md

Latest commit

History

README_pt-BR.md

File metadata and controls

Tradução de Quadrinhos

Introdução

O Estado da Tradução Automática

Amostras de Quadrinhos

Instalação

Python

Uso

Dicas

Chaves de API

Obtendo Chaves de API

Open AI (GPT)

Google Cloud Vision

Como funciona

Detecção de Balões de Fala e Segmentação de Texto

OCR

Inpainting

Tradução

Renderização de texto

Agradecimentos