Skip to content

Proyectos UCV Ciencia de Datos / Projects UCV Data Science

Notifications You must be signed in to change notification settings

thefigaro/UCV_DS

Repository files navigation

Universidad Central de Venezuela UCV_DS

Asignacion_01

  • Se realizó un conteo de ocurrencia de las categorías (i.e. el campo Listed In), por ejemplo: Comedy, Drama, etc.

  • Fuente de datos (archive_movies_csv.zip): data_set_movies_tv_shows

  • El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_02

  • Exploracion_Viz: 5 gráficos con matplotlib de las películas y series

  • Fuente de datos (archive_movies_csv.zip): data_set_movies_tv_shows

  • El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_03 (algoritmo -random naive bayes-)

  • Clasificación Bayesiana (Naive)
  • Proyecto: Identificación según el género del público consumidor en filmes o peliculas

Objetivo: Clasificación “automática”
Nuestra clasificación consistirá en asignar un puntaje-score que adjudique si la película está orientada al público masculino 🚹 o femenino 🚺.

  • A mayor puntaje en la escala positiva, mayor orientación masculina se percibe en la película. Por tanto, esta se clasifica como +1
  • Asi mismo, a mayor puntaje en la escala negativa, mayor orientación femenina se percibe en la película. Y, por tanto, esta se clasifica como -1.
  • Y finalmente, un puntaje cercano a 0 sugiere que la película no está sesgada hacia ningún género en particular, lo que la convierte en una opción neutral para ambos públicos

Para calcular el puntaje (score): Tomaremos los campos cast y listed_in:

Pretendemos es identificar el género (masc ó fem) de los protagonistas cast en cada una de las películas.

Si los nombres (en ingles) en cast son masculinos o femeninos, se le adjudicará un puntaje de +1/-1 respectivamente. Para adjudicar el género se tomará la última letra del nombre de los protagonistas. Las terminaciones en: e, o, d, h, n, m, l, g, ó sus combinaciones pares, por ej. 'en', 'hn','oh','on', etc. en cada uno de los nombres, serán clasificadas con un puntaje de +1 (masculino). Todas las terminaciones distintas a las antes mencionadas, e, o, h, n, m, l, g serán clasificadas con un puntaje -1 (femenino).

Nota: Ciertamente, las reglas de pre-procesamiento para identificar el género del elenco de en la variable cast necesitan una elaboración más rigurosa. No obstante, para fines ilustrativos NO consideraremos ser más rigurosos en esta asignación.

Analisis de Cluster (pendiente)

Asignacion_04 (FP Growth) (Aproximación a un sistema de recomendación)

  • Algoritmos de asociación, en este caso se utilizó (Frequent Pattern Growth -FP Growth-). véase. -FP Growth- wiki

  • Se realizó una propuesta para un sistema de recomendación de películas según las preferencias, el género (ie. Comedia, Drama,... )

  • Fuente de datos (archive_movies_csv.zip): data_set_movies_tv_shows

  • El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_05 (textmine)

  • Realizamos un conteo relativo de palabras y frases tanto en capítulo 10 como 11.

  • Fuente de datos: Miguel de Cervantes - El Quijote -

  • Se separaron el cap 10 y 11; (cap_10_cervantes.txt) (cap_10_cervantes.txt)

  • Los datasets antes mencionados se encuentran para su uso respectivamente en: datasets/Cap_10_11_cervantes

Proyecto_Final_DS

  • Proyecto: Análisis de clasificatorio de tópicos en los distintos buscadores de internet en sus canales de noticias (news) según palabras clave.

  • Objetivo: Los buscadores de internet en sus canales de noticias utilizan una combinación compleja de algoritmos para determinar la relevancia y el orden de los resultados de búsqueda. En tal sentido, realizamos una busqueda de los topicos más importantes que influyen en la clasificación de los resultados para la consulta con la palabra "Venezuela".

Procedimiento de búsqueda de datos:

  • Las consultas se realizaron en el meta-buscador: searx
  • Realizamos consultas de la última semana de noticias dia '19-09-2023' con la palabra "Venezuela" y tomamos las 10 primeras apariciones: http://searx.thegpm.org/?q=venezuela&categories=news&time_range=week&language=en
Data_set Dia de consulta "Venezuela"
searx.thegpm.org_0.json 19-09-2023
searx.thegpm.org_1.json 20-09-2023
searx.thegpm.org_2.json 21-09-2023
searx.thegpm.org_3.json 22-09-2023
searx.thegpm.org_4.json 23-09-2023
searx.thegpm.org_5.json 24-09-2023
searx.thegpm.org_6.json 25-09-2023

About

Proyectos UCV Ciencia de Datos / Projects UCV Data Science

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published