La generación de intervalos de predicción para obtener más de 1 modelo lineal en R?

Question 1

Estoy tratando de generar intervalos de predicción utilizando la función de predecir() para un conjunto de datos nuevos, pero a través de más de un modelo que he generado para un conjunto de datos. Yo soy relativamente inexpertos en el uso de lapply, pero la figura que debe ser útil en este proceso:

#Calling in my libraries:
library(dplyr)

#Creating dataset:

DNase <- DNase

#Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  do(model_dna_group = lm(log(density) ~ log(conc), data = .)) %>%   ungroup()

#Creating a new data set to be used to generate predictions:
new_dna <- as.data.frame(DNase$conc) %>% 
  mutate(conc = DNase$conc * 2) %>% select(conc)

#Attempting to apply predict to these models for a new data frame:
new_dna_w_predictions <- lapply(
                           X = model_dna, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

Sin embargo, este saca el siguiente error:

Error en llegar(como.carácter(DIVERSIÓN), mode = "función", no = no) : el objeto 'model_dna' de modo de 'función' no se ha encontrado

No estoy seguro de cómo mejor la estructura de esta lapply función, especialmente cuando se utilizan en más de un modelo. Hay generalmente un limpiador de manera acerca de esto?

Question 2

Aquí tienes un completo tidyverse solución:

# Calling in my libraries:
library(dplyr)
library(purrr)

# Creating dataset:
DNase <- DNase

# Creating a new data set to be used to generate predictions:
new_dna <- DNase %>% transmute(conc = conc * 2)  # simplified

# Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  summarise(model_dna_group = list(lm(log(density) ~ log(conc))))
  
model_dna
#> # A tibble: 11 x 2
#>    Run   model_dna_group
#>    <ord> <list>         
#>  1 10    <lm>           
#>  2 11    <lm>           
#>  3 9     <lm>           
#>  4 1     <lm>           
#>  5 4     <lm>           
#>  6 8     <lm>           
#>  7 5     <lm>           
#>  8 7     <lm>           
#>  9 6     <lm>           
#> 10 2     <lm>           
#> 11 3     <lm>


# Run predictions
model_dna %>%
  group_by(Run) %>% 
  summarise(map(model_dna_group, predict, newdata = new_dna, interval = "prediction", level = 0.9) %>% map_dfr(as_tibble),
            .groups = "drop")

#> # A tibble: 1,936 x 4
#>    Run       fit    lwr    upr
#>    <ord>   <dbl>  <dbl>  <dbl>
#>  1 10    -2.16   -2.48  -1.85 
#>  2 10    -2.16   -2.48  -1.85 
#>  3 10    -1.33   -1.64  -1.03 
#>  4 10    -1.33   -1.64  -1.03 
#>  5 10    -0.918  -1.22  -0.617
#>  6 10    -0.918  -1.22  -0.617
#>  7 10    -0.503  -0.804 -0.201
#>  8 10    -0.503  -0.804 -0.201
#>  9 10    -0.0873 -0.392  0.217
#> 10 10    -0.0873 -0.392  0.217
#> # ... with 1,926 more rows

^{Creado en 2021-11-19 por el reprex paquete (v2.0.0)}

Aviso:

después de dplyr 1.0 no es necesario el uso de do ya para este tipo de casos
con map y map_dfr usted puede calcular sus predicciones y encaja muy bien en su tibble

Question 3

Su objeto model_dna es una de datos.marco (más precisamente: un tibble), que contiene el lm-los objetos en su segunda columna "model_dna_group".

En el lapply-llame usted debe referirse a la columna, no la totalidad de la trama de datos. Lapply intenta utilizar predict en las columnas de la trama de datos en lugar de los lm-los objetos dentro de la segunda columna.

Para editar su llamada de la siguiente manera y funciona:

new_dna_w_predictions <- lapply(
                           X = model_dna$model_dna_group, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

Edo · Answer 1 · 2021-11-19T18:05:38

Aquí tienes un completo tidyverse solución:

# Calling in my libraries:
library(dplyr)
library(purrr)

# Creating dataset:
DNase <- DNase

# Creating a new data set to be used to generate predictions:
new_dna <- DNase %>% transmute(conc = conc * 2)  # simplified

# Generating models, one for each "Run" in DNAse:
model_dna <- DNase %>% 
  group_by(Run) %>% 
  summarise(model_dna_group = list(lm(log(density) ~ log(conc))))
  
model_dna
#> # A tibble: 11 x 2
#>    Run   model_dna_group
#>    <ord> <list>         
#>  1 10    <lm>           
#>  2 11    <lm>           
#>  3 9     <lm>           
#>  4 1     <lm>           
#>  5 4     <lm>           
#>  6 8     <lm>           
#>  7 5     <lm>           
#>  8 7     <lm>           
#>  9 6     <lm>           
#> 10 2     <lm>           
#> 11 3     <lm>


# Run predictions
model_dna %>%
  group_by(Run) %>% 
  summarise(map(model_dna_group, predict, newdata = new_dna, interval = "prediction", level = 0.9) %>% map_dfr(as_tibble),
            .groups = "drop")

#> # A tibble: 1,936 x 4
#>    Run       fit    lwr    upr
#>    <ord>   <dbl>  <dbl>  <dbl>
#>  1 10    -2.16   -2.48  -1.85 
#>  2 10    -2.16   -2.48  -1.85 
#>  3 10    -1.33   -1.64  -1.03 
#>  4 10    -1.33   -1.64  -1.03 
#>  5 10    -0.918  -1.22  -0.617
#>  6 10    -0.918  -1.22  -0.617
#>  7 10    -0.503  -0.804 -0.201
#>  8 10    -0.503  -0.804 -0.201
#>  9 10    -0.0873 -0.392  0.217
#> 10 10    -0.0873 -0.392  0.217
#> # ... with 1,926 more rows

^{Creado en 2021-11-19 por el reprex paquete (v2.0.0)}

Aviso:

después de dplyr 1.0 no es necesario el uso de do ya para este tipo de casos
con map y map_dfr usted puede calcular sus predicciones y encaja muy bien en su tibble

benimwolfspelz · Answer 2 · 2021-11-19T17:22:23

Su objeto model_dna es una de datos.marco (más precisamente: un tibble), que contiene el lm-los objetos en su segunda columna "model_dna_group".

En el lapply-llame usted debe referirse a la columna, no la totalidad de la trama de datos. Lapply intenta utilizar predict en las columnas de la trama de datos en lugar de los lm-los objetos dentro de la segunda columna.

Para editar su llamada de la siguiente manera y funciona:

new_dna_w_predictions <- lapply(
                           X = model_dna$model_dna_group, 
                           FUN = predict, 
                           newdata = new_dna, 
                           interval = "prediction", 
                           level = 0.9
                          )

La generación de intervalos de predicción para obtener más de 1 modelo lineal en R?

Pregunta

Mejor respuesta

En otros idiomas

Esta página está en otros idiomas

Popular en esta categoría

Las preguntas más habituales en esta categoría