Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Workgroup5 #127

Open
Robertopucp opened this issue May 26, 2023 · 0 comments
Open

Workgroup5 #127

Robertopucp opened this issue May 26, 2023 · 0 comments

Comments

@Robertopucp
Copy link
Owner

Robertopucp commented May 26, 2023

Script R y Python (Jupiter notebook)

Plot

  1. Replicar el siguiente gráfico (producción de hoja de coca en hectáreas) lo más parecido posible en términos de color de series por paises, diseño de la series, diseño de la leyenda, nota de pie de página y titulo de los ejes pues la disponibilidad de datos es diferente 2009-2020.

replicacion_img

  1. Relizar un gráfico similar con los datos de erradicación de hectareas de hoja de Coca.
  2. Realizar un gráfico con la producción y erradicación de hoja de coca en el Perú.

Exportar los gráficos en formato .png y guardarlos en la siguiente carpeta del repositorio: output\plots

  • Las bases de datos están en la carpeta coca_producción.

  • La presente imagen pertenece a la investigación: Sviatschi, M. M. (2022). Making a narco: Childhood exposure to illegal labor markets and criminal life paths. Econometrica, 90(4), 1835-1878.

Regex

  1. La base de datos metropolitano.xlsx posse información de latitud y longitud de las estaciones del metropiltano y dos lineas de alimentadores. Usar regex para cambiar el formato de las coordenadas a uno de coordenadas geográficos (i.e -11.25, -69.56). Guiese de la aplicación a las coordenadas del Capac Ñan usada en el script de python.

  2. En la carpeta estudiantes, ustedes encontrarán una base de datos llamada base_estudiantes.xlsx (Una base de datos muy sucia). La base de datos contiene información de estudiantes de la educación básica regular. Las variables son las siguientes: nombre, edad, fecha de nacimiento, tipo de administración de la institución educativa, género, correro electrónico, dni del apoderado, madre o padre, y una variable con observaciones.

Realizar la siguiente limpieza de datos asi como creación de las variables usando Expresiones Regulares

  • Limpiar el nombre de los estudiantes; es decir, retirar caracteres especiales, número , etc que no permite identificar los nombres adecuadamente.
  • Similarmente al item anterior, limpiar la fecha de nacimiento y edad. Asimismo, asignar el formato date a la fecha de nacimiento. Crear una variable con el año de nacimiento.
  • Use la variable GENDER para crear una dummy que tome el valor de 1 para female y 0 para males. Similarmente, crear una variable dummy que tome el valor de 1 si el colegio al cual asiste la o el menor es pública, y 0 si es privada.
  • Crear una variable con el usuario del correo electrónico (rmendozam@pucp.edu.pe, usuario : rmendozam)
  • Crear una variable con el número de DNI del padre, madre o apoderado.
  • La variable observaciones contiene información del nombre y edad correctos del estudiante. Asimismo, tiene información de la cantidad de hermanos, si el menor es beneficiario del programa Juntos o si asiste a una institucón educativa de Jornada Escolar Completa. A partir de la variable observaciones, realizar lo siguiente:
    • Recuperar el nombre y edad correctos, y reemplazarlo en las variables de nombre (NAME) y edad respectivamente (AGE). [Hint: puede crear variables que almacenen el nombre y edad correctos, y luego reemplazar]
    • Crear una variable con la cantidad de hermana/os del estudiante
    • Crear una variable dummy si el menor es beneficiario del programa Juntos y otra dummy si asiste a un colegio de jornada escolar completa.

** Importante: Recordar que escribir código es como redactar. En ese sentido, se calificará el orden, añadir comentarios y subtítulos. Recuerde verificar todas las líneas de código y que no haya problemas. Yo espero no encontrar errores al correr sus scripts. El script de su grupo debe tener el siguiente nombre. Un ejemplo, Grupo_2_py, Grupo_2_r para nombrar los scripts de python y R respectivamente*

Las bases de datos están en la carpeta data

Guardar sus scripts en la siguiente carpeta Labs\tarea5

Deadline: domingo 4 de junio 11:59 pm

MarialeColan added a commit that referenced this issue Jun 3, 2023
MarialeColan added a commit that referenced this issue Jun 4, 2023
jonatanpucp added a commit that referenced this issue Jun 5, 2023
sebastianls1 added a commit that referenced this issue Jun 5, 2023
fernandaVR1 pushed a commit that referenced this issue Jun 5, 2023
tarea5
jonatanpucp added a commit that referenced this issue Jun 5, 2023
DianaCondoriLaura added a commit that referenced this issue Jun 5, 2023
jonatanpucp added a commit that referenced this issue Jun 5, 2023
jonatanpucp added a commit that referenced this issue Jun 5, 2023
DianaCondoriLaura added a commit that referenced this issue Jun 5, 2023
alligukie added a commit that referenced this issue Jun 5, 2023
alligukie added a commit that referenced this issue Jun 5, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant