Skip to content

Latest commit

 

History

History
202 lines (156 loc) · 10.9 KB

README_pt-BR.md

File metadata and controls

202 lines (156 loc) · 10.9 KB

Tradução de Quadrinhos

Inglês | Coreano | Francês | Chinês | Japonês | Português Brasileiro

Introdução

Existem muitos tradutores automáticos de mangá. Pouquíssimos suportam adequadamente quadrinhos de outros tipos em outros idiomas. Este projeto foi criado para utilizar a habilidade de grandes modelos de linguagem (LLMs) do estado da arte (SOTA), como o GPT-4, e traduzir quadrinhos de todo o mundo. Atualmente, suporta traduções de e para inglês, coreano, japonês, francês, chinês simplificado, chinês tradicional, russo, alemão, holandês, espanhol e italiano. Também é possível traduzir para (mas não de) turco, polonês, português e português brasileiro.

O Estado da Tradução Automática

Para algumas dezenas de idiomas, o melhor tradutor automático não é o Google Tradutor, o Papago ou mesmo o DeepL, mas um grande modelo de linguagem (LLM) do estado da arte (SOTA) como o GPT-4o, e por muito. Isso é muito aparente para pares de línguas distantes (Coreano<->Inglês, Japonês<->Inglês, etc), onde outros tradutores ainda frequentemente se tornam incoerentes. Trecho de "A Prática da Caminhada"(보행 연습) de Dolki Min(돌기민) Model

Amostras de Quadrinhos

GPT-4 como Tradutor. Nota: Alguns destes também têm traduções oficiais em inglês

Os Miseráveis do Alto-mar

Jornada ao Oeste

A Saga do Mundo dos Vermes

Frieren e a Jornada para o Além

Dias de Areia

Jogador (OH Hyeon-Jun)

Carbono e Silício

Instalação

Python

Instale o Python (<=3.10). Marque "Add python.exe to PATH" durante a instalação.

https://www.python.org/downloads/

Clone o repositório (ou baixe a pasta), navegue até a pasta

git clone https://github.com/ogkalu2/comic-translate
cd comic-translate

e instale as dependências

pip install -r requirements.txt

Se você encontrar algum problema, você pode tentar executar em um ambiente virtual. Abra o terminal/cmd no diretório que você deseja instalar o ambiente virtual (ou cd 'path/para/ambiente/ambiente/virtual/pasta'). Crie seu ambiente virtual com:

python -m venv comic-translate-venv

Agora ative o ambiente virtual. No Windows:

comic-translate-venv\Scripts\activate

No Mac e Linux:

source comic-translate-venv/bin/activate

Agora você pode rodar os comandos de instalação novamente. Quando você terminar de usar o aplicativo, você pode desativar o ambiente virtual com:

deactivate

Para reativar, use os mesmos comandos com o terminal na pasta onde o ambiente virtual está localizado.

Se você tiver uma GPU NVIDIA, é recomendado executar

pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

Nota: O 121 em +cu121 representa a versão do CUDA - 12.1. Substitua 121 com a sua versão do CUDA. Ex: 118 se você estiver rodando o CUDA 11.8

Uso

No diretório comic-translate, execute

python comic.py

Isso iniciará a GUI

Dicas

  • Se você tiver um arquivo CBR, precisará instalar o Winrar ou 7-Zip e adicionar a pasta onde está instalado (ex: "C:\Program Files\WinRAR" no Windows) ao Path. Se estiver instalado, mas não no Path, você poderá receber o erro:
raise RarCannotExec("Cannot find working tool")

Nesse caso, instruções para Windows, Linux, Mac

  • Certifique-se de que a fonte selecionada suporte caracteres do idioma de destino
  • A versão 2.0 introduz um Modo Manual. Quando você encontrar problemas no Modo Automático (Nenhum texto detectado, OCR incorreto, limpeza insuficiente, etc), você pode fazer correções. Basta desfazer a imagem e ativar o Modo Manual.
  • No Modo Automático, uma vez que uma imagem tenha sido processada, ela é carregada no Visualizador ou armazenada para ser carregada na troca, assim você pode continuar lendo no aplicativo enquanto as outras imagens estão sendo traduzidas.
  • Ctrl + Scroll para ampliar, caso contrário, scroll vertical
  • Os gestos usuais do trackpad funcionam para visualizar a imagem
  • Setas direita e esquerda para navegar entre imagens

Chaves de API

As seguintes opções exigirão acesso a recursos fechados e, subsequentemente, Chaves de API:

  • GPT-4o ou 4o-mini para Tradução (Pago, cerca de $0.01 USD/Página para 4o)
  • Tradutor DeepL (Grátis até 500.000 caracteres/mês)
  • GPT-4o para OCR (Opção padrão para Francês, Russo, Alemão, Holandês, Espanhol e Italiano) (Pago, cerca de $0.02 USD/Página)
  • Microsoft Azure Vision para OCR (Grátis até 5000 imagens/mês)
  • Google Cloud Vision para OCR (Grátis até 1000 imagens/mês) Você pode definir suas Chaves de API indo para Configurações > Credenciais

Obtendo Chaves de API

Open AI (GPT)

  • Vá ao site da Plataforma OpenAI em platform.openai.com e faça login com (ou crie) uma conta OpenAI.
  • Passe o mouse sobre a barra de tarefas direita da página e selecione "API Keys."
  • Clique em "Create New Secret Key" para gerar uma nova chave de API. Copie e armazene.

Google Cloud Vision

  • Faça login/crie uma conta Google Cloud. Vá para Cloud Resource Manager e clique em "Create Project". Defina o nome do seu projeto.
  • Selecione o seu projeto aqui depois selecione "Billing" e "Create Account". No pop-up, "Enable billing account", e aceite a oferta de uma conta de teste gratuita. O "Account type" deve ser individual. Preencha com um cartão de crédito válido.
  • Habilite o Google Cloud Vision para o seu projeto aqui
  • Ná pagina Google Cloud Credentials, clique em "Create Credentials" e depois em API Key. Copie e armazene.

Como funciona

Detecção de Balões de Fala e Segmentação de Texto

speech-bubble-detector, text-segmenter. Dois modelos yolov8m treinados em 8k e 3k imagens de quadrinhos (Manga, Webtoons, Faroeste), respectivamente.

OCR

Por padrão:

  • EasyOCR para Inglês
  • manga-ocr para Japonês
  • Pororo para Coreano
  • PaddleOCR para Chinês
  • GPT-4o para Francês, Russo, Alemão, Holandês, Espanhol e Italiano. Pago, requer uma Chave de API.

Opcional:

Estes podem ser usados ​​para qualquer um dos idiomas suportados. É necessária uma Chave de API.

Inpainting

Um checkpoint de LaMa finetuned para Manga/Anime para remover o texto detectado pelo segmentador. Implementação cortesia de lama-cleaner

Tradução

Atualmente, suporta o uso de GPT-4o, GPT-4o mini, DeepL, Claude-3-Opus, Claude-3.5-Sonnet, Claude-3-Haiku, Gemini-1.5-Flash, Gemini-1.5-Pro, Yandex, Google Tradutor e Microsoft Translator.

Todos os LLMs recebem o texto da página inteira para auxiliar nas traduções. Há também a opção de fornecer a própria imagem para mais contexto.

Renderização de texto

PIL para renderizar o texto envolto em caixas delimitadoras obtidas de balões e texto.

Agradecimentos