Skip to content

Commit bccce10

Browse files
authored
Merge pull request #3 from caio-lelis/docs/release-2
Atualização na documentação de modelos testados
2 parents 4380bd7 + 6f69aef commit bccce10

File tree

1 file changed

+33
-105
lines changed

1 file changed

+33
-105
lines changed
Lines changed: 33 additions & 105 deletions
Original file line numberDiff line numberDiff line change
@@ -1,140 +1,68 @@
11
# Modelos de Machine Learning Testados e Escolhidos
22

3-
A avaliação da qualidade de imagem (IQA) é uma etapa crucial em diversas aplicações de processamento de imagem, e sua importância é particularmente acentuada no campo da imagiologia médica, como na análise de lesões de pele. A qualidade de uma imagem dermatológica ou dermatoscópica pode impactar diretamente a precisão diagnóstica, seja por um especialista humano ou por um sistema de inteligência artificial. Imagens de baixa qualidade podem obscurecer características vitais da lesão, levando a interpretações equivocadas. Neste contexto, foram avaliados modelos de IQA não treinados e pré-treinados, com foco em sua aplicabilidade para garantir que apenas imagens de qualidade adequada sejam utilizadas para análise subsequente.
3+
A avaliação da qualidade de imagens é essencial em aplicações de diagnóstico médico, especialmente na análise de lesões de pele. Imagens de baixa qualidade podem comprometer a precisão diagnóstica, seja por especialistas humanos ou por sistemas de inteligência artificial. Neste contexto, decidimos avaliar três modelos distintos:
44

5-
## Modelo de Classificação de Qualidade de Imagem NIQE (Natural Image Quality Evaluator)
5+
- **BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)**
66

7-
O NIQE é um algoritmo de Avaliação de Qualidade de Imagem Sem Referência (No-Reference Image Quality Assessment - NR-IQA), também conhecido como "blind IQA" (avaliação cega). Isso significa que ele estima a qualidade de uma imagem sem a necessidade de compará-la com uma imagem original "perfeita" ou "sem distorções".
7+
- **Conn-Cerberus/Soma_Skin_Cancer_Classifier**
88

9-
### Princípio Fundamental do NIQE
10-
A ideia central do NIQE é que imagens naturais e de alta qualidade possuem certas regularidades estatísticas que podem ser modeladas. Distorções em uma imagem (como ruído, desfoque, artefatos de compressão, etc.) tendem a perturbar essas estatísticas "naturais". O NIQE quantifica a qualidade de uma imagem medindo o quão distante suas características estatísticas estão de um modelo de "naturalidade" aprendido a partir de um corpus de imagens pristine (sem distorções).
9+
- **Anwarkh1/Skin_Cancer-Image_Classification**
1110

12-
### Como o NIQE Funciona:
11+
## BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)
12+
O BRISQUE é um modelo de avaliação de qualidade de imagem sem referência (No-Reference Image Quality Assessment - NR-IQA) que opera no domínio espacial. Ele analisa estatísticas naturais de cenas (Natural Scene Statistics - NSS) para quantificar a "naturalidade" de uma imagem, utilizando coeficientes de luminância localmente normalizados. Um modelo de regressão por vetores de suporte (SVR) é treinado para prever a qualidade da imagem com base nessas estatísticas.
1313

14-
1. **Estatísticas de Cenas Naturais (Natural Scene Statistics - NSS):** O NIQE baseia-se fortemente em modelos de NSS. Estes modelos descrevem as propriedades estatísticas observadas em imagens que retratam cenas naturais. Uma característica comum utilizada são os coeficientes MSCN (Mean Subtracted Contrast Normalized - Média Subtraída e Contraste Normalizado). Os coeficientes MSCN de imagens naturais tendem a seguir distribuições específicas (por exemplo, uma distribuição Gaussiana Generalizada).
15-
2. **Construção do Modelo de "Qualidade":**
16-
* Um conjunto de imagens de alta qualidade e sem distorções (imagens "pristine" de cenas naturais) é usado para construir um modelo de referência.
17-
* Para cada imagem nesse conjunto, são extraídas características baseadas em NSS.
18-
* Essas características são então modeladas, tipicamente como uma Distribuição Gaussiana Multivariada (MVG). Essa MVG representa o "espaço" das características de imagens naturais de alta qualidade.
19-
3. **Avaliação de uma Imagem de Teste:**
20-
* Para uma nova imagem cuja qualidade se deseja avaliar, as mesmas características NSS são extraídas.
21-
* A "distância" entre o vetor de características da imagem de teste e o modelo MVG é calculada. Essa distância é a pontuação NIQE.
22-
* **Interpretação da Pontuação:** Uma pontuação NIQE **menor** geralmente indica melhor qualidade perceptual, significando que as estatísticas da imagem de teste estão mais próximas das estatísticas de imagens naturais. Pontuações mais altas indicam um desvio maior da "naturalidade" e, portanto, uma qualidade inferior.
14+
- **Vantagens:**
2315

24-
### Características Utilizadas:
25-
O NIQE utiliza um conjunto de características derivadas dos coeficientes MSCN no domínio espacial, incluindo parâmetros de ajuste de distribuições GGD e AGGD a esses coeficientes e seus produtos parciais. Ao todo, são tipicamente 36 características.
16+
- Sem necessidade de imagem de referência: Avalia a qualidade da imagem sem requerer uma imagem original "perfeita".
2617

27-
### Vantagens do NIQE:
18+
- Eficiência computacional: Requer menos recursos computacionais em comparação com modelos baseados em aprendizado profundo.
2819

29-
* **Totalmente Sem Referência (Blind).**
30-
* **Não Supervisionado por Opinião Humana (Opinion Unaware):** Não requer scores de qualidade humanos para treinamento, aprendendo apenas com estatísticas de imagens "naturais".
31-
* **Generalidade para Distorções Comuns.**
32-
* **Computacionalmente Mais Leve** que modelos de deep learning.
20+
- Aplicabilidade geral: Pode ser utilizado em diversas aplicações de avaliação de qualidade de imagem.
3321

34-
### Desvantagens e Limitações do NIQE:
22+
- **Limitações:**
3523

36-
* **Correlação com Percepção Humana:** Pode não se correlacionar fortemente com a percepção humana, especialmente para qualidade estética ou tarefas específicas.
37-
* **Foco na "Naturalidade":** Imagens estilizadas ou com conteúdo não fotográfico podem ser mal avaliadas.
38-
* **Sensibilidade ao Conteúdo.**
39-
* **Não Captura Aspectos Estéticos Complexos.**
24+
- Dependência de estatísticas de cenas naturais: Pode não ser ideal para imagens médicas, como lesões de pele, que possuem características estatísticas distintas das cenas naturais.
4025

41-
### Casos de Uso Comuns e Aplicabilidade em Lesões de Pele:
26+
- Sensibilidade a distorções específicas: Pode não capturar adequadamente distorções relevantes para diagnósticos médicos.
4227

43-
* Monitoramento em tempo real da qualidade de vídeo ou imagem.
44-
* Avaliação automática da qualidade em grandes bancos de dados de imagens genéricas.
45-
* Benchmarking de algoritmos de processamento de imagem.
46-
* **No contexto de lesões de pele:**
47-
* O NIQE padrão, treinado em cenas naturais, pode ter aplicabilidade limitada, pois as estatísticas de imagens dermatológicas (especialmente dermatoscópicas, com suas texturas e padrões específicos) diferem significativamente das cenas naturais. Uma imagem de lesão de pele pode ser "não natural" segundo o NIQE, mas clinicamente excelente.
48-
* Poderia, teoricamente, ser usado para detectar distorções muito grosseiras (desfoque extremo, ruído excessivo) que tornariam qualquer imagem inutilizável.
49-
* Uma adaptação do NIQE, treinando-o com um corpus de imagens de lesões de pele de **alta qualidade clínica** como referência de "naturalidade específica do domínio", poderia ser mais relevante, mas isso foge da sua formulação padrão e propósito original.
28+
- Necessidade de adaptação: Para melhor desempenho em imagens médicas, seria necessário treinar o modelo com um conjunto de dados específico desse domínio.
5029

51-
Em resumo, para imagens genéricas, o NIQE é uma ferramenta valiosa pela sua natureza não supervisionada. Contudo, para domínios específicos como imagens de lesões de pele, onde a "qualidade" é definida por critérios diagnósticos e não apenas por "naturalidade" estatística geral, suas limitações se tornam mais evidentes.
52-
53-
## Modelo de Classificação de Qualidade de Imagem NIMA (Neural Image Assessment)
54-
55-
O NIMA (Neural Image Assessment) é um modelo de aprendizado profundo projetado para prever a qualidade de imagens de uma forma que se correlaciona fortemente com a percepção humana. Diferentemente dos métodos tradicionais que frequentemente fornecem uma única pontuação média, o NIMA prevê uma **distribuição de pontuações de opinião humana**. Isso significa que ele não apenas avalia a qualidade técnica (ausência de ruído, desfoque, etc.), mas também pode ser treinado para avaliar a qualidade estética ou, crucialmente para o nosso cenário, a **adequação diagnóstica** de uma imagem.
56-
57-
### Como o NIMA Funciona?
58-
59-
O NIMA utiliza Redes Neurais Convolucionais (CNNs):
60-
61-
1. **Arquitetura da CNN:** Emprega arquiteturas pré-treinadas (VGG, Inception, MobileNet) como extratores de características.
62-
2. **Camada de Saída Modificada:** Substituída por uma camada que produz uma distribuição de pontuações (e.g., 10 neurônios para uma escala de 1 a 10).
63-
3. **Função de Perda (Loss Function):** Comumente a Earth Mover's Distance (EMD), que compara a distribuição prevista com a distribuição real das classificações humanas (ou de especialistas).
64-
4. **Treinamento:** Ajustado (fine-tuned) usando conjuntos de dados de qualidade de imagem com classificações humanas/especialistas. Para lesões de pele, isso envolveria dermatologistas classificando a qualidade das imagens para fins diagnósticos (e.g., nitidez de bordas, visibilidade de estruturas dermatoscópicas, ausência de brilho excessivo).
65-
66-
### Considerações e Limitações do NIMA:
67-
68-
* **Necessidade de Dados Rotulados:** Requer conjuntos de dados com classificações de qualidade, que no caso de lesões de pele, idealmente viriam de dermatologistas.
69-
* **Custo Computacional:** Modelos de aprendizado profundo podem ser mais intensivos.
70-
* **Natureza de "Caixa Preta":** Entender o porquê de uma decisão pode ser menos transparente.
71-
72-
## Avaliação entre modelos pré-treinados: Comparação entre os Modelos Soma_Skin_Cancer_Classifier e Skin_Cancer-Image_Classification
73-
74-
Na busca por modelos eficazes na classificação de lesões de pele, dois modelos disponíveis na plataforma Hugging Face foram analisados: Conn-Cerberus/Soma_Skin_Cancer_Classifier e Anwarkh1/Skin_Cancer-Image_Classification. Ambos demonstram abordagens distintas em termos de arquitetura e desempenho.
75-
76-
### Conn-Cerberus/Soma_Skin_Cancer_Classifier
77-
- **Arquitetura:** Baseado em ResNet-18, uma rede neural convolucional profunda conhecida por sua eficiência em tarefas de classificação de imagens.
78-
79-
- **Tipo de Classificação:** Binária, distinguindo entre lesões benignas e malignas.
80-
81-
- **Conjunto de Dados Utilizado:** HAM10000, que contém imagens dermatoscópicas de diversas lesões de pele.
30+
## Conn-Cerberus/Soma_Skin_Cancer_Classifier
31+
Este modelo, disponível no Hugging Face, é especializado na classificação de imagens de lesões de pele. Ele utiliza técnicas de aprendizado profundo para identificar e classificar diferentes tipos de lesões cutâneas.
8232

8333
- **Desempenho:**
8434

85-
- Acurácia: Aproximadamente 89%.
35+
- Acurácia: 89% na classificação de imagens de lesões de pele.
8636

87-
- Recall para lesões malignas: Cerca de 78%.
37+
- **Vantagens:**
8838

89-
- Precisão para lesões benignas: Superior a 90%.
39+
- Especialização: Projetado especificamente para análise de lesões de pele.
9040

91-
#### Considerações:
41+
- Capacidade de generalização: Pode identificar uma variedade de lesões com boa precisão.
9242

93-
O modelo foi treinado com pesos ajustados para lidar com o desequilíbrio de classes, dando maior ênfase às lesões malignas.
43+
- **Limitações:**
9444

95-
Embora apresente bom desempenho geral, o recall relativamente mais baixo para lesões malignas indica uma necessidade de cautela, especialmente em aplicações clínicas onde a detecção de casos malignos é crítica.
45+
- Acurácia inferior a modelos mais recentes: Embora eficaz, apresenta desempenho inferior ao modelo Anwarkh1/Skin_Cancer-Image_Classification.
9646

97-
### Anwarkh1/Skin_Cancer-Image_Classification
98-
99-
- **Arquitetura:** Utiliza o Vision Transformer (ViT), uma abordagem baseada em transformadores que tem mostrado resultados promissores em visão computacional.
47+
- Possível necessidade de refinamento: Pode se beneficiar de ajustes adicionais ou treinamento com conjuntos de dados mais abrangentes.
10048

101-
- **Tipo de Classificação:** Multiclasse, abrangendo sete categorias de lesões de pele, incluindo melanoma, nevos melanocíticos, carcinoma basocelular, entre outros.
102-
103-
- **Conjunto de Dados Utilizado:** Dataset de Skin Cancer disponível na Hugging Face, derivado do conjunto de dados de Marmal88.
49+
## Anwarkh1/Skin_Cancer-Image_Classification
50+
Também disponível no Hugging Face, este modelo utiliza a arquitetura Vision Transformer (ViT) para classificar imagens de lesões de pele em várias categorias, incluindo melanoma, carcinoma basocelular, entre outras.
10451

10552
- **Desempenho:**
10653

107-
- Acurácia de Validação: Aproximadamente 96.95% após 5 epochs de treinamento.
108-
109-
#### Considerações:
110-
111-
O modelo demonstra excelente desempenho em tarefas de classificação multiclasse, o que é particularmente útil em cenários clínicos que requerem distinção entre diversos tipos de lesões.
112-
113-
A utilização do ViT permite capturar relações espaciais complexas nas imagens, potencialmente contribuindo para a alta acurácia observada.
114-
115-
### Comparação e Escolha do Modelo
116-
117-
Ao comparar ambos os modelos, observa-se que:
118-
119-
- **Desempenho:** O modelo Anwarkh1/Skin_Cancer-Image_Classification supera o Conn-Cerberus/Soma_Skin_Cancer_Classifier em termos de acurácia geral (96.95% vs. 89%).
120-
121-
- **Capacidade de Classificação:** Enquanto o modelo Conn-Cerberus realiza uma classificação binária, o modelo Anwarkh1 é capaz de distinguir entre múltiplas classes de lesões, oferecendo uma análise mais detalhada.
122-
123-
- **Arquitetura:** O uso do Vision Transformer no modelo Anwarkh1 proporciona vantagens na captura de padrões complexos nas imagens, o que pode ser benéfico para a classificação precisa de lesões de pele.
124-
125-
Diante desses fatores, o modelo Anwarkh1/Skin_Cancer-Image_Classification se destaca como a escolha mais adequada para aplicações que requerem alta precisão e capacidade de distinguir entre diversos tipos de lesões de pele. Sua arquitetura avançada e desempenho superior o tornam uma ferramenta promissora para auxiliar na análise e diagnóstico de lesões dermatológicas.
126-
127-
## Justificativa para a Escolha de um Modelo Pré-Treinado em Detrimento do NIMA
54+
- Acurácia: 96% na classificação de imagens de lesões de pele.
12855

129-
Embora o NIMA (Neural Image Assessment) seja eficaz na avaliação da qualidade de imagens com base na percepção humana, sua aplicação principal é na análise estética ou técnica da imagem, e não na classificação diagnóstica de lesões de pele. Optar por um modelo pré-treinado, como o Anwarkh1/Skin_Cancer-Image_Classification, oferece diversas vantagens:
56+
- **Vantagens:**
13057

131-
- **Foco na Classificação Diagnóstica:** Modelos pré-treinados são especificamente ajustados para identificar e classificar diferentes tipos de lesões de pele, proporcionando resultados diretamente aplicáveis ao diagnóstico clínico.
58+
- Alta precisão: Desempenho superior na classificação de diferentes tipos de lesões.
13259

133-
- **Eficiência de Recursos:** Utilizar modelos pré-treinados reduz significativamente o tempo e os recursos computacionais necessários para treinamento, permitindo uma implementação mais rápida e econômica.
60+
- Uso de arquitetura moderna: A utilização de ViT permite capturar características complexas das imagens.
13461

135-
- **Desempenho Superior:** Como evidenciado, modelos como o Anwarkh1 alcançam acurácias elevadas (96.95%), superando as capacidades do NIMA em tarefas de classificação de lesões.
62+
- Treinamento com dados específicos: Foi treinado com um conjunto de dados abrangente de imagens de lesões de pele.
13663

137-
- **Aproveitamento de Arquiteturas Avançadas:** Modelos como o Anwarkh1 utilizam arquiteturas modernas, como o Vision Transformer, que capturam relações espaciais complexas nas imagens, melhorando a precisão da classificação.
64+
- **Limitações:**
13865

139-
Portanto, para o objetivo de classificar lesões de pele com alta precisão e eficiência, a escolha por um modelo pré-treinado, como o Anwarkh1/Skin_Cancer-Image_Classification, é mais apropriada do que a utilização do NIMA, que é mais adequado para avaliação geral da qualidade de imagens.
66+
- Requisitos computacionais: Pode demandar mais recursos computacionais devido à complexidade da arquitetura.
14067

68+
- Necessidade de adaptação para novos dados: Pode requerer ajustes ao ser aplicado em conjuntos de dados diferentes dos utilizados no treinamento original.

0 commit comments

Comments
 (0)