Universidad Central de Venezuela

Asignacion_01

Se realizó un conteo de ocurrencia de las categorías (i.e. el campo Listed In), por ejemplo: Comedy, Drama, etc.
Fuente de datos (archive_movies_csv.zip):
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_02

Exploracion_Viz: 5 gráficos con matplotlib de las películas y series
Fuente de datos (archive_movies_csv.zip):
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_03 (algoritmo -random naive bayes-)

Clasificación Bayesiana (Naive)
Proyecto: Identificación según el género del público consumidor en filmes o peliculas

Objetivo: Clasificación “automática”
Nuestra clasificación consistirá en asignar un puntaje-score que adjudique si la película está orientada al público masculino 🚹 o femenino 🚺.

A mayor puntaje en la escala positiva, mayor orientación masculina se percibe en la película. Por tanto, esta se clasifica como +1
Asi mismo, a mayor puntaje en la escala negativa, mayor orientación femenina se percibe en la película. Y, por tanto, esta se clasifica como -1.
Y finalmente, un puntaje cercano a 0 sugiere que la película no está sesgada hacia ningún género en particular, lo que la convierte en una opción neutral para ambos públicos

Para calcular el puntaje (score): Tomaremos los campos cast y listed_in:

Pretendemos es identificar el género (masc ó fem) de los protagonistas cast en cada una de las películas.

Si los nombres (en ingles) en cast son masculinos o femeninos, se le adjudicará un puntaje de +1/-1 respectivamente. Para adjudicar el género se tomará la última letra del nombre de los protagonistas. Las terminaciones en: e, o, d, h, n, m, l, g, ó sus combinaciones pares, por ej. 'en', 'hn','oh','on', etc. en cada uno de los nombres, serán clasificadas con un puntaje de +1 (masculino). Todas las terminaciones distintas a las antes mencionadas, e, o, h, n, m, l, g serán clasificadas con un puntaje -1 (femenino).

Nota: Ciertamente, las reglas de pre-procesamiento para identificar el género del elenco de en la variable cast necesitan una elaboración más rigurosa. No obstante, para fines ilustrativos NO consideraremos ser más rigurosos en esta asignación.

Analisis de Cluster (pendiente)

Asignacion_04 (FP Growth) (Aproximación a un sistema de recomendación)

Algoritmos de asociación, en este caso se utilizó (Frequent Pattern Growth -FP Growth-). véase. -FP Growth- wiki
Se realizó una propuesta para un sistema de recomendación de películas según las preferencias, el género (ie. Comedia, Drama,... )
Fuente de datos (archive_movies_csv.zip):
El dataset antes mencionado se encuentra para su uso en: datasets/movies_tv_shows bajo el nombre de movies_tv_shows.zip

Asignacion_05 (textmine)

Realizamos un conteo relativo de palabras y frases tanto en capítulo 10 como 11.
Fuente de datos:
Se separaron el cap 10 y 11; (cap_10_cervantes.txt) (cap_10_cervantes.txt)
Los datasets antes mencionados se encuentran para su uso respectivamente en: datasets/Cap_10_11_cervantes

Proyecto_Final_DS

Proyecto: Análisis de clasificatorio de tópicos en los distintos buscadores de internet en sus canales de noticias (news) según palabras clave.
Objetivo: Los buscadores de internet en sus canales de noticias utilizan una combinación compleja de algoritmos para determinar la relevancia y el orden de los resultados de búsqueda. En tal sentido, realizamos una busqueda de los topicos más importantes que influyen en la clasificación de los resultados para la consulta con la palabra "Venezuela".

Procedimiento de búsqueda de datos:

Las consultas se realizaron en el meta-buscador: searx
Realizamos consultas de la última semana de noticias dia '19-09-2023' con la palabra "Venezuela" y tomamos las 10 primeras apariciones: http://searx.thegpm.org/?q=venezuela&categories=news&time_range=week&language=en

Data_set	Dia de consulta "Venezuela"
searx.thegpm.org_0.json	19-09-2023
searx.thegpm.org_1.json	20-09-2023
searx.thegpm.org_2.json	21-09-2023
searx.thegpm.org_3.json	22-09-2023
searx.thegpm.org_4.json	23-09-2023
searx.thegpm.org_5.json	24-09-2023
searx.thegpm.org_6.json	25-09-2023

Las búsquedas resultantes en formato *.json para su uso encuentran en: datasets/Projecto_final_DS_data_json

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
datasets		datasets
Asignacion_01.ipynb		Asignacion_01.ipynb
Asignacion_02.ipynb		Asignacion_02.ipynb
Asignacion_03_randomdatabayes.ipynb		Asignacion_03_randomdatabayes.ipynb
Asignacion_04__FPGrowth.ipynb		Asignacion_04__FPGrowth.ipynb
Asignacion_05_textmine.ipynb		Asignacion_05_textmine.ipynb
LEAME.md		LEAME.md
Proyecto_final_DS_python_UCV.ipynb		Proyecto_final_DS_python_UCV.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Universidad Central de Venezuela

Asignacion_01

Asignacion_02

Asignacion_03 (algoritmo -random naive bayes-)

Analisis de Cluster (pendiente)

Asignacion_04 (FP Growth) (Aproximación a un sistema de recomendación)

Asignacion_05 (textmine)

Proyecto_Final_DS

About

Releases

Packages

Languages

thefigaro/UCV_DS

Folders and files

Latest commit

History

Repository files navigation

Universidad Central de Venezuela

Asignacion_01

Asignacion_02

Asignacion_03 (algoritmo -random naive bayes-)

Analisis de Cluster (pendiente)

Asignacion_04 (FP Growth) (Aproximación a un sistema de recomendación)

Asignacion_05 (textmine)

Proyecto_Final_DS

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages