|
1 | 1 | # Modelos de Machine Learning Testados e Escolhidos
|
2 | 2 |
|
3 |
| -A avaliação da qualidade de imagem (IQA) é uma etapa crucial em diversas aplicações de processamento de imagem, e sua importância é particularmente acentuada no campo da imagiologia médica, como na análise de lesões de pele. A qualidade de uma imagem dermatológica ou dermatoscópica pode impactar diretamente a precisão diagnóstica, seja por um especialista humano ou por um sistema de inteligência artificial. Imagens de baixa qualidade podem obscurecer características vitais da lesão, levando a interpretações equivocadas. Neste contexto, foram avaliados modelos de IQA não treinados e pré-treinados, com foco em sua aplicabilidade para garantir que apenas imagens de qualidade adequada sejam utilizadas para análise subsequente. |
| 3 | +A avaliação da qualidade de imagens é essencial em aplicações de diagnóstico médico, especialmente na análise de lesões de pele. Imagens de baixa qualidade podem comprometer a precisão diagnóstica, seja por especialistas humanos ou por sistemas de inteligência artificial. Neste contexto, decidimos avaliar três modelos distintos: |
4 | 4 |
|
5 |
| -## Modelo de Classificação de Qualidade de Imagem NIQE (Natural Image Quality Evaluator) |
| 5 | +- **BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)** |
6 | 6 |
|
7 |
| -O NIQE é um algoritmo de Avaliação de Qualidade de Imagem Sem Referência (No-Reference Image Quality Assessment - NR-IQA), também conhecido como "blind IQA" (avaliação cega). Isso significa que ele estima a qualidade de uma imagem sem a necessidade de compará-la com uma imagem original "perfeita" ou "sem distorções". |
| 7 | +- **Conn-Cerberus/Soma_Skin_Cancer_Classifier** |
8 | 8 |
|
9 |
| -### Princípio Fundamental do NIQE |
10 |
| -A ideia central do NIQE é que imagens naturais e de alta qualidade possuem certas regularidades estatísticas que podem ser modeladas. Distorções em uma imagem (como ruído, desfoque, artefatos de compressão, etc.) tendem a perturbar essas estatísticas "naturais". O NIQE quantifica a qualidade de uma imagem medindo o quão distante suas características estatísticas estão de um modelo de "naturalidade" aprendido a partir de um corpus de imagens pristine (sem distorções). |
| 9 | +- **Anwarkh1/Skin_Cancer-Image_Classification** |
11 | 10 |
|
12 |
| -### Como o NIQE Funciona: |
| 11 | +## BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator) |
| 12 | +O BRISQUE é um modelo de avaliação de qualidade de imagem sem referência (No-Reference Image Quality Assessment - NR-IQA) que opera no domínio espacial. Ele analisa estatísticas naturais de cenas (Natural Scene Statistics - NSS) para quantificar a "naturalidade" de uma imagem, utilizando coeficientes de luminância localmente normalizados. Um modelo de regressão por vetores de suporte (SVR) é treinado para prever a qualidade da imagem com base nessas estatísticas. |
13 | 13 |
|
14 |
| -1. **Estatísticas de Cenas Naturais (Natural Scene Statistics - NSS):** O NIQE baseia-se fortemente em modelos de NSS. Estes modelos descrevem as propriedades estatísticas observadas em imagens que retratam cenas naturais. Uma característica comum utilizada são os coeficientes MSCN (Mean Subtracted Contrast Normalized - Média Subtraída e Contraste Normalizado). Os coeficientes MSCN de imagens naturais tendem a seguir distribuições específicas (por exemplo, uma distribuição Gaussiana Generalizada). |
15 |
| -2. **Construção do Modelo de "Qualidade":** |
16 |
| - * Um conjunto de imagens de alta qualidade e sem distorções (imagens "pristine" de cenas naturais) é usado para construir um modelo de referência. |
17 |
| - * Para cada imagem nesse conjunto, são extraídas características baseadas em NSS. |
18 |
| - * Essas características são então modeladas, tipicamente como uma Distribuição Gaussiana Multivariada (MVG). Essa MVG representa o "espaço" das características de imagens naturais de alta qualidade. |
19 |
| -3. **Avaliação de uma Imagem de Teste:** |
20 |
| - * Para uma nova imagem cuja qualidade se deseja avaliar, as mesmas características NSS são extraídas. |
21 |
| - * A "distância" entre o vetor de características da imagem de teste e o modelo MVG é calculada. Essa distância é a pontuação NIQE. |
22 |
| - * **Interpretação da Pontuação:** Uma pontuação NIQE **menor** geralmente indica melhor qualidade perceptual, significando que as estatísticas da imagem de teste estão mais próximas das estatísticas de imagens naturais. Pontuações mais altas indicam um desvio maior da "naturalidade" e, portanto, uma qualidade inferior. |
| 14 | +- **Vantagens:** |
23 | 15 |
|
24 |
| -### Características Utilizadas: |
25 |
| -O NIQE utiliza um conjunto de características derivadas dos coeficientes MSCN no domínio espacial, incluindo parâmetros de ajuste de distribuições GGD e AGGD a esses coeficientes e seus produtos parciais. Ao todo, são tipicamente 36 características. |
| 16 | + - Sem necessidade de imagem de referência: Avalia a qualidade da imagem sem requerer uma imagem original "perfeita". |
26 | 17 |
|
27 |
| -### Vantagens do NIQE: |
| 18 | + - Eficiência computacional: Requer menos recursos computacionais em comparação com modelos baseados em aprendizado profundo. |
28 | 19 |
|
29 |
| -* **Totalmente Sem Referência (Blind).** |
30 |
| -* **Não Supervisionado por Opinião Humana (Opinion Unaware):** Não requer scores de qualidade humanos para treinamento, aprendendo apenas com estatísticas de imagens "naturais". |
31 |
| -* **Generalidade para Distorções Comuns.** |
32 |
| -* **Computacionalmente Mais Leve** que modelos de deep learning. |
| 20 | + - Aplicabilidade geral: Pode ser utilizado em diversas aplicações de avaliação de qualidade de imagem. |
33 | 21 |
|
34 |
| -### Desvantagens e Limitações do NIQE: |
| 22 | +- **Limitações:** |
35 | 23 |
|
36 |
| -* **Correlação com Percepção Humana:** Pode não se correlacionar fortemente com a percepção humana, especialmente para qualidade estética ou tarefas específicas. |
37 |
| -* **Foco na "Naturalidade":** Imagens estilizadas ou com conteúdo não fotográfico podem ser mal avaliadas. |
38 |
| -* **Sensibilidade ao Conteúdo.** |
39 |
| -* **Não Captura Aspectos Estéticos Complexos.** |
| 24 | + - Dependência de estatísticas de cenas naturais: Pode não ser ideal para imagens médicas, como lesões de pele, que possuem características estatísticas distintas das cenas naturais. |
40 | 25 |
|
41 |
| -### Casos de Uso Comuns e Aplicabilidade em Lesões de Pele: |
| 26 | + - Sensibilidade a distorções específicas: Pode não capturar adequadamente distorções relevantes para diagnósticos médicos. |
42 | 27 |
|
43 |
| -* Monitoramento em tempo real da qualidade de vídeo ou imagem. |
44 |
| -* Avaliação automática da qualidade em grandes bancos de dados de imagens genéricas. |
45 |
| -* Benchmarking de algoritmos de processamento de imagem. |
46 |
| -* **No contexto de lesões de pele:** |
47 |
| - * O NIQE padrão, treinado em cenas naturais, pode ter aplicabilidade limitada, pois as estatísticas de imagens dermatológicas (especialmente dermatoscópicas, com suas texturas e padrões específicos) diferem significativamente das cenas naturais. Uma imagem de lesão de pele pode ser "não natural" segundo o NIQE, mas clinicamente excelente. |
48 |
| - * Poderia, teoricamente, ser usado para detectar distorções muito grosseiras (desfoque extremo, ruído excessivo) que tornariam qualquer imagem inutilizável. |
49 |
| - * Uma adaptação do NIQE, treinando-o com um corpus de imagens de lesões de pele de **alta qualidade clínica** como referência de "naturalidade específica do domínio", poderia ser mais relevante, mas isso foge da sua formulação padrão e propósito original. |
| 28 | + - Necessidade de adaptação: Para melhor desempenho em imagens médicas, seria necessário treinar o modelo com um conjunto de dados específico desse domínio. |
50 | 29 |
|
51 |
| -Em resumo, para imagens genéricas, o NIQE é uma ferramenta valiosa pela sua natureza não supervisionada. Contudo, para domínios específicos como imagens de lesões de pele, onde a "qualidade" é definida por critérios diagnósticos e não apenas por "naturalidade" estatística geral, suas limitações se tornam mais evidentes. |
52 |
| - |
53 |
| -## Modelo de Classificação de Qualidade de Imagem NIMA (Neural Image Assessment) |
54 |
| - |
55 |
| -O NIMA (Neural Image Assessment) é um modelo de aprendizado profundo projetado para prever a qualidade de imagens de uma forma que se correlaciona fortemente com a percepção humana. Diferentemente dos métodos tradicionais que frequentemente fornecem uma única pontuação média, o NIMA prevê uma **distribuição de pontuações de opinião humana**. Isso significa que ele não apenas avalia a qualidade técnica (ausência de ruído, desfoque, etc.), mas também pode ser treinado para avaliar a qualidade estética ou, crucialmente para o nosso cenário, a **adequação diagnóstica** de uma imagem. |
56 |
| - |
57 |
| -### Como o NIMA Funciona? |
58 |
| - |
59 |
| -O NIMA utiliza Redes Neurais Convolucionais (CNNs): |
60 |
| - |
61 |
| -1. **Arquitetura da CNN:** Emprega arquiteturas pré-treinadas (VGG, Inception, MobileNet) como extratores de características. |
62 |
| -2. **Camada de Saída Modificada:** Substituída por uma camada que produz uma distribuição de pontuações (e.g., 10 neurônios para uma escala de 1 a 10). |
63 |
| -3. **Função de Perda (Loss Function):** Comumente a Earth Mover's Distance (EMD), que compara a distribuição prevista com a distribuição real das classificações humanas (ou de especialistas). |
64 |
| -4. **Treinamento:** Ajustado (fine-tuned) usando conjuntos de dados de qualidade de imagem com classificações humanas/especialistas. Para lesões de pele, isso envolveria dermatologistas classificando a qualidade das imagens para fins diagnósticos (e.g., nitidez de bordas, visibilidade de estruturas dermatoscópicas, ausência de brilho excessivo). |
65 |
| - |
66 |
| -### Considerações e Limitações do NIMA: |
67 |
| - |
68 |
| -* **Necessidade de Dados Rotulados:** Requer conjuntos de dados com classificações de qualidade, que no caso de lesões de pele, idealmente viriam de dermatologistas. |
69 |
| -* **Custo Computacional:** Modelos de aprendizado profundo podem ser mais intensivos. |
70 |
| -* **Natureza de "Caixa Preta":** Entender o porquê de uma decisão pode ser menos transparente. |
71 |
| - |
72 |
| -## Avaliação entre modelos pré-treinados: Comparação entre os Modelos Soma_Skin_Cancer_Classifier e Skin_Cancer-Image_Classification |
73 |
| - |
74 |
| -Na busca por modelos eficazes na classificação de lesões de pele, dois modelos disponíveis na plataforma Hugging Face foram analisados: Conn-Cerberus/Soma_Skin_Cancer_Classifier e Anwarkh1/Skin_Cancer-Image_Classification. Ambos demonstram abordagens distintas em termos de arquitetura e desempenho. |
75 |
| - |
76 |
| -### Conn-Cerberus/Soma_Skin_Cancer_Classifier |
77 |
| -- **Arquitetura:** Baseado em ResNet-18, uma rede neural convolucional profunda conhecida por sua eficiência em tarefas de classificação de imagens. |
78 |
| - |
79 |
| -- **Tipo de Classificação:** Binária, distinguindo entre lesões benignas e malignas. |
80 |
| - |
81 |
| -- **Conjunto de Dados Utilizado:** HAM10000, que contém imagens dermatoscópicas de diversas lesões de pele. |
| 30 | +## Conn-Cerberus/Soma_Skin_Cancer_Classifier |
| 31 | +Este modelo, disponível no Hugging Face, é especializado na classificação de imagens de lesões de pele. Ele utiliza técnicas de aprendizado profundo para identificar e classificar diferentes tipos de lesões cutâneas. |
82 | 32 |
|
83 | 33 | - **Desempenho:**
|
84 | 34 |
|
85 |
| - - Acurácia: Aproximadamente 89%. |
| 35 | + - Acurácia: 89% na classificação de imagens de lesões de pele. |
86 | 36 |
|
87 |
| - - Recall para lesões malignas: Cerca de 78%. |
| 37 | +- **Vantagens:** |
88 | 38 |
|
89 |
| - - Precisão para lesões benignas: Superior a 90%. |
| 39 | + - Especialização: Projetado especificamente para análise de lesões de pele. |
90 | 40 |
|
91 |
| -#### Considerações: |
| 41 | + - Capacidade de generalização: Pode identificar uma variedade de lesões com boa precisão. |
92 | 42 |
|
93 |
| -O modelo foi treinado com pesos ajustados para lidar com o desequilíbrio de classes, dando maior ênfase às lesões malignas. |
| 43 | +- **Limitações:** |
94 | 44 |
|
95 |
| -Embora apresente bom desempenho geral, o recall relativamente mais baixo para lesões malignas indica uma necessidade de cautela, especialmente em aplicações clínicas onde a detecção de casos malignos é crítica. |
| 45 | + - Acurácia inferior a modelos mais recentes: Embora eficaz, apresenta desempenho inferior ao modelo Anwarkh1/Skin_Cancer-Image_Classification. |
96 | 46 |
|
97 |
| -### Anwarkh1/Skin_Cancer-Image_Classification |
98 |
| - |
99 |
| -- **Arquitetura:** Utiliza o Vision Transformer (ViT), uma abordagem baseada em transformadores que tem mostrado resultados promissores em visão computacional. |
| 47 | + - Possível necessidade de refinamento: Pode se beneficiar de ajustes adicionais ou treinamento com conjuntos de dados mais abrangentes. |
100 | 48 |
|
101 |
| -- **Tipo de Classificação:** Multiclasse, abrangendo sete categorias de lesões de pele, incluindo melanoma, nevos melanocíticos, carcinoma basocelular, entre outros. |
102 |
| - |
103 |
| -- **Conjunto de Dados Utilizado:** Dataset de Skin Cancer disponível na Hugging Face, derivado do conjunto de dados de Marmal88. |
| 49 | +## Anwarkh1/Skin_Cancer-Image_Classification |
| 50 | +Também disponível no Hugging Face, este modelo utiliza a arquitetura Vision Transformer (ViT) para classificar imagens de lesões de pele em várias categorias, incluindo melanoma, carcinoma basocelular, entre outras. |
104 | 51 |
|
105 | 52 | - **Desempenho:**
|
106 | 53 |
|
107 |
| - - Acurácia de Validação: Aproximadamente 96.95% após 5 epochs de treinamento. |
108 |
| - |
109 |
| -#### Considerações: |
110 |
| - |
111 |
| -O modelo demonstra excelente desempenho em tarefas de classificação multiclasse, o que é particularmente útil em cenários clínicos que requerem distinção entre diversos tipos de lesões. |
112 |
| - |
113 |
| -A utilização do ViT permite capturar relações espaciais complexas nas imagens, potencialmente contribuindo para a alta acurácia observada. |
114 |
| - |
115 |
| -### Comparação e Escolha do Modelo |
116 |
| - |
117 |
| -Ao comparar ambos os modelos, observa-se que: |
118 |
| - |
119 |
| -- **Desempenho:** O modelo Anwarkh1/Skin_Cancer-Image_Classification supera o Conn-Cerberus/Soma_Skin_Cancer_Classifier em termos de acurácia geral (96.95% vs. 89%). |
120 |
| - |
121 |
| -- **Capacidade de Classificação:** Enquanto o modelo Conn-Cerberus realiza uma classificação binária, o modelo Anwarkh1 é capaz de distinguir entre múltiplas classes de lesões, oferecendo uma análise mais detalhada. |
122 |
| - |
123 |
| -- **Arquitetura:** O uso do Vision Transformer no modelo Anwarkh1 proporciona vantagens na captura de padrões complexos nas imagens, o que pode ser benéfico para a classificação precisa de lesões de pele. |
124 |
| - |
125 |
| -Diante desses fatores, o modelo Anwarkh1/Skin_Cancer-Image_Classification se destaca como a escolha mais adequada para aplicações que requerem alta precisão e capacidade de distinguir entre diversos tipos de lesões de pele. Sua arquitetura avançada e desempenho superior o tornam uma ferramenta promissora para auxiliar na análise e diagnóstico de lesões dermatológicas. |
126 |
| - |
127 |
| -## Justificativa para a Escolha de um Modelo Pré-Treinado em Detrimento do NIMA |
| 54 | + - Acurácia: 96% na classificação de imagens de lesões de pele. |
128 | 55 |
|
129 |
| -Embora o NIMA (Neural Image Assessment) seja eficaz na avaliação da qualidade de imagens com base na percepção humana, sua aplicação principal é na análise estética ou técnica da imagem, e não na classificação diagnóstica de lesões de pele. Optar por um modelo pré-treinado, como o Anwarkh1/Skin_Cancer-Image_Classification, oferece diversas vantagens: |
| 56 | +- **Vantagens:** |
130 | 57 |
|
131 |
| -- **Foco na Classificação Diagnóstica:** Modelos pré-treinados são especificamente ajustados para identificar e classificar diferentes tipos de lesões de pele, proporcionando resultados diretamente aplicáveis ao diagnóstico clínico. |
| 58 | + - Alta precisão: Desempenho superior na classificação de diferentes tipos de lesões. |
132 | 59 |
|
133 |
| -- **Eficiência de Recursos:** Utilizar modelos pré-treinados reduz significativamente o tempo e os recursos computacionais necessários para treinamento, permitindo uma implementação mais rápida e econômica. |
| 60 | + - Uso de arquitetura moderna: A utilização de ViT permite capturar características complexas das imagens. |
134 | 61 |
|
135 |
| -- **Desempenho Superior:** Como evidenciado, modelos como o Anwarkh1 alcançam acurácias elevadas (96.95%), superando as capacidades do NIMA em tarefas de classificação de lesões. |
| 62 | + - Treinamento com dados específicos: Foi treinado com um conjunto de dados abrangente de imagens de lesões de pele. |
136 | 63 |
|
137 |
| -- **Aproveitamento de Arquiteturas Avançadas:** Modelos como o Anwarkh1 utilizam arquiteturas modernas, como o Vision Transformer, que capturam relações espaciais complexas nas imagens, melhorando a precisão da classificação. |
| 64 | +- **Limitações:** |
138 | 65 |
|
139 |
| -Portanto, para o objetivo de classificar lesões de pele com alta precisão e eficiência, a escolha por um modelo pré-treinado, como o Anwarkh1/Skin_Cancer-Image_Classification, é mais apropriada do que a utilização do NIMA, que é mais adequado para avaliação geral da qualidade de imagens. |
| 66 | + - Requisitos computacionais: Pode demandar mais recursos computacionais devido à complexidade da arquitetura. |
140 | 67 |
|
| 68 | + - Necessidade de adaptação para novos dados: Pode requerer ajustes ao ser aplicado em conjuntos de dados diferentes dos utilizados no treinamento original. |
0 commit comments