Duda sobre la elección del dataset #228
Replies: 2 comments 1 reply
-
Saludos @natandreli El problema de las imágenes pulmonares presenta dos inconvenientes:
Para vuestro proyecto les recomendamos que utilicen un dataset tabular, osea que los datos esten en filas y columnas (lo que podríamos entender coloquialmente como una "hoja de cálculo de excel"). Vuestra segunda propuesta si que es con datos tabulares, pero no tenéis una definición del problema. Nuestra recomendación es que busquen en el campo de "competitions" de kaggle, no en el de "datasets", pues las competiciones suelen tener más código de otros competidores (lo que os ayudará como una guía general), los problemas están mejor definidos, y las métricas de desempeño también suelen estar ya definidas. Espero que esto les sea de utilidad. |
Beta Was this translation helpful? Give feedback.
-
sí, no está mal ... intentad primero con todos los datos, 50K no es tanto
... si computacionalmente se vuelve pesado entonces podéis sub-muestrear
para reducir el conjunto
…On Thu, Feb 23, 2023 at 3:21 PM Natalia Andrea García Ríos < ***@***.***> wrote:
¡Hola! Teniendo en cuenta lo que nos comentaste, mi compañero y yo
buscamos otro dataset en una competencia.
En la competencia nos piden realizar un modelo que permita detectar
fraudes a partir de transacciones:
https://www.kaggle.com/competitions/ieee-fraud-detection/data
El dataset cuenta con aproximadamente 50000 datos. Sin embargo, leyendo
pasados hilos en los que preguntaban también por la elección del dataset,
se le mencionada al estudiante que podía recortar las filas para no tener
que trabajar con tan gran cantidad de información.
¿Podría ser este dataset una buena elección?
Muchas gracias por estar pendiente.
—
Reply to this email directly, view it on GitHub
<#228 (reply in thread)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ADJRZIOA5TAGP7JECHGMWNTWY7BF3ANCNFSM6AAAAAAVDX4RGE>
.
You are receiving this because you are subscribed to this thread.Message
ID: ***@***.***>
--
*Aviso legal:* El contenido de este mensaje y los archivos adjuntos son
confidenciales y de uso exclusivo de la Universidad Nacional de Colombia.
Se encuentran dirigidos sólo para el uso del destinatario al cual van
enviados. La reproducción, lectura y/o copia se encuentran prohibidas a
cualquier persona diferente a este y puede ser ilegal. Si usted lo ha
recibido por error, infórmenos y elimínelo de su correo. Los Datos
Personales serán tratados conforme a la Ley 1581 de 2012 y a nuestra
Política de Datos Personales que podrá consultar en la página web
www.unal.edu.co <http://www.unal.edu.co/>.* *Las opiniones, informaciones,
conclusiones y cualquier otro tipo de dato contenido en este correo
electrónico, no relacionados con la actividad de la Universidad Nacional de
Colombia, se entenderá como personales y de ninguna manera son avaladas por
la Universidad.
|
Beta Was this translation helpful? Give feedback.
-
Buenas noches, profesor y monitores:
Tenemos dudas acerca de si este dataset es el indicado para la realización del proyecto.
https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia
Está compuesto por 5863 imágenes y posee tres categorías: pulmones normales, con neumonía bacteriana y con neumonía viral. Pero no nos queda muy claro con qué se refieren a que debe tener al menos 30 columnas.
¿Este dataset se podría utilizar? Ya sea para crear un modelo que nos ayude a identificar si los pulmones de una persona son saludables o si poseen alguna de las dos enfermedades mencionadas anteriormente.
Por otra parte, también encontramos este dataset, que nos parece cumple con todas las condiciones:
https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention
Aunque preferiríamos trabajar con el de las radiografías pulmonares.
¿Cuál sería una mejor decisión?
Muchas gracias.
Beta Was this translation helpful? Give feedback.
All reactions