Duda sobre la elección del dataset #228

natandreli · 2023-02-22T02:15:27Z

natandreli
Feb 22, 2023

Buenas noches, profesor y monitores:

Tenemos dudas acerca de si este dataset es el indicado para la realización del proyecto.

https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia

Está compuesto por 5863 imágenes y posee tres categorías: pulmones normales, con neumonía bacteriana y con neumonía viral. Pero no nos queda muy claro con qué se refieren a que debe tener al menos 30 columnas.

¿Este dataset se podría utilizar? Ya sea para crear un modelo que nos ayude a identificar si los pulmones de una persona son saludables o si poseen alguna de las dos enfermedades mencionadas anteriormente.

Por otra parte, también encontramos este dataset, que nos parece cumple con todas las condiciones:

https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention

Aunque preferiríamos trabajar con el de las radiografías pulmonares.

¿Cuál sería una mejor decisión?

Muchas gracias.

Felipe-RA · 2023-02-22T18:41:05Z

Felipe-RA
Feb 22, 2023
Collaborator

Saludos @natandreli

El problema de las imágenes pulmonares presenta dos inconvenientes:

Al ser un dataset, no una competición, la tarea de definir el problema a resolver (y las métricas de desempeño) recae sobre vosotros, lo cual para un primer proyecto no es lo más recomendable.
Es una tarea de análisis de imágenes, esto presenta el reto extra de requerir conocimientos más avanzados.

Para vuestro proyecto les recomendamos que utilicen un dataset tabular, osea que los datos esten en filas y columnas (lo que podríamos entender coloquialmente como una "hoja de cálculo de excel").

Vuestra segunda propuesta si que es con datos tabulares, pero no tenéis una definición del problema.

Nuestra recomendación es que busquen en el campo de "competitions" de kaggle, no en el de "datasets", pues las competiciones suelen tener más código de otros competidores (lo que os ayudará como una guía general), los problemas están mejor definidos, y las métricas de desempeño también suelen estar ya definidas.

Espero que esto les sea de utilidad.

1 reply

natandreli Feb 23, 2023
Author

¡Hola! Teniendo en cuenta lo que nos comentaste, mi compañero y yo buscamos otro dataset en una competencia.

En la competencia nos piden realizar un modelo que permita detectar fraudes a partir de transacciones:

https://www.kaggle.com/competitions/ieee-fraud-detection/data

El dataset cuenta con aproximadamente 50000 datos. Sin embargo, leyendo pasados hilos en los que preguntaban también por la elección del dataset, se le mencionada al estudiante que podía recortar las filas para no tener que trabajar con tan gran cantidad de información.

¿Podría ser este dataset una buena elección?

Muchas gracias por estar pendiente.

rramosp · 2023-02-23T20:37:44Z

rramosp
Feb 23, 2023
Maintainer

sí, no está mal ... intentad primero con todos los datos, 50K no es tanto ... si computacionalmente se vuelve pesado entonces podéis sub-muestrear para reducir el conjunto

…

On Thu, Feb 23, 2023 at 3:21 PM Natalia Andrea García Ríos < ***@***.***> wrote: ¡Hola! Teniendo en cuenta lo que nos comentaste, mi compañero y yo buscamos otro dataset en una competencia. En la competencia nos piden realizar un modelo que permita detectar fraudes a partir de transacciones: https://www.kaggle.com/competitions/ieee-fraud-detection/data El dataset cuenta con aproximadamente 50000 datos. Sin embargo, leyendo pasados hilos en los que preguntaban también por la elección del dataset, se le mencionada al estudiante que podía recortar las filas para no tener que trabajar con tan gran cantidad de información. ¿Podría ser este dataset una buena elección? Muchas gracias por estar pendiente. — Reply to this email directly, view it on GitHub <#228 (reply in thread)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ADJRZIOA5TAGP7JECHGMWNTWY7BF3ANCNFSM6AAAAAAVDX4RGE> . You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

-- *Aviso legal:* El contenido de este mensaje y los archivos adjuntos son confidenciales y de uso exclusivo de la Universidad Nacional de Colombia. Se encuentran dirigidos sólo para el uso del destinatario al cual van enviados. La reproducción, lectura y/o copia se encuentran prohibidas a cualquier persona diferente a este y puede ser ilegal. Si usted lo ha recibido por error, infórmenos y elimínelo de su correo. Los Datos Personales serán tratados conforme a la Ley 1581 de 2012 y a nuestra Política de Datos Personales que podrá consultar en la página web www.unal.edu.co <http://www.unal.edu.co/>.* *Las opiniones, informaciones, conclusiones y cualquier otro tipo de dato contenido en este correo electrónico, no relacionados con la actividad de la Universidad Nacional de Colombia, se entenderá como personales y de ninguna manera son avaladas por la Universidad.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Duda sobre la elección del dataset #228

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 2 comments 1 reply

{{title}}

{{title}}

{{title}}

Select a reply

Duda sobre la elección del dataset #228

natandreli Feb 22, 2023

Replies: 2 comments · 1 reply

Felipe-RA Feb 22, 2023 Collaborator

natandreli Feb 23, 2023 Author

rramosp Feb 23, 2023 Maintainer

natandreli
Feb 22, 2023

Replies: 2 comments 1 reply

Felipe-RA
Feb 22, 2023
Collaborator

natandreli Feb 23, 2023
Author

rramosp
Feb 23, 2023
Maintainer