-
Se realizó un conteo de ocurrencia de las categorías (i.e. el campo
Listed In
), por ejemplo: Comedy, Drama, etc. -
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de
movies_tv_shows.zip
-
Exploracion_Viz: 5 gráficos con matplotlib de las películas y series
-
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de
movies_tv_shows.zip
- Clasificación Bayesiana (Naive)
- Proyecto: Identificación según el género del público consumidor en filmes o peliculas
Objetivo: Clasificación “automática”
Nuestra clasificación consistirá en asignar un puntaje-score que adjudique si la película está orientada al público masculino 🚹 o femenino 🚺.
- A mayor puntaje en la escala positiva, mayor orientación masculina se percibe en la película. Por tanto, esta se clasifica como +1
- Asi mismo, a mayor puntaje en la escala negativa, mayor orientación femenina se percibe en la película. Y, por tanto, esta se clasifica como -1.
- Y finalmente, un puntaje cercano a 0 sugiere que la película no está sesgada hacia ningún género en particular, lo que la convierte en una opción neutral para ambos públicos
Para calcular el puntaje (score):
Tomaremos los campos cast
y listed_in
:
Pretendemos es identificar el género (masc ó fem) de los protagonistas cast
en cada una de las películas.
Si los nombres (en ingles) en cast
son masculinos o femeninos, se le adjudicará un puntaje de +1/-1 respectivamente. Para adjudicar el género se tomará la última letra del nombre de los protagonistas. Las terminaciones en: e, o, d, h, n, m, l, g, ó sus combinaciones pares, por ej. 'en', 'hn','oh','on', etc. en cada uno de los nombres, serán clasificadas con un puntaje de +1 (masculino). Todas las terminaciones distintas a las antes mencionadas, e, o, h, n, m, l, g serán clasificadas con un puntaje -1 (femenino).
Nota: Ciertamente, las reglas de pre-procesamiento para identificar el género del elenco de en la variable cast
necesitan una elaboración más rigurosa. No obstante, para fines ilustrativos NO consideraremos ser más rigurosos en esta asignación.
-
Algoritmos de asociación, en este caso se utilizó (Frequent Pattern Growth -FP Growth-). véase. -FP Growth- wiki
-
Se realizó una propuesta para un sistema de recomendación de películas según las preferencias, el género (ie. Comedia, Drama,... )
-
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de
movies_tv_shows.zip
-
Realizamos un conteo relativo de palabras y frases tanto en capítulo 10 como 11.
-
Se separaron el cap 10 y 11; (cap_10_cervantes.txt) (cap_10_cervantes.txt)
-
Los datasets antes mencionados se encuentran para su uso respectivamente en: datasets/Cap_10_11_cervantes
-
Proyecto: Análisis de clasificatorio de tópicos en los distintos buscadores de internet en sus canales de noticias (news) según palabras clave.
-
Objetivo: Los buscadores de internet en sus canales de noticias utilizan una combinación compleja de algoritmos para determinar la relevancia y el orden de los resultados de búsqueda. En tal sentido, realizamos una busqueda de los topicos más importantes que influyen en la clasificación de los resultados para la consulta con la palabra "Venezuela".
Procedimiento de búsqueda de datos:
- Las consultas se realizaron en el meta-buscador: searx
- Realizamos consultas de la última semana de noticias dia '19-09-2023' con la palabra "Venezuela" y tomamos las 10 primeras apariciones:
http://searx.thegpm.org/?q=venezuela&categories=news&time_range=week&language=en
Data_set | Dia de consulta "Venezuela" |
---|---|
searx.thegpm.org_0.json | 19-09-2023 |
searx.thegpm.org_1.json | 20-09-2023 |
searx.thegpm.org_2.json | 21-09-2023 |
searx.thegpm.org_3.json | 22-09-2023 |
searx.thegpm.org_4.json | 23-09-2023 |
searx.thegpm.org_5.json | 24-09-2023 |
searx.thegpm.org_6.json | 25-09-2023 |
- Las búsquedas resultantes en formato *.json para su uso encuentran en: datasets/Projecto_final_DS_data_json