Skip to content

Commit

Permalink
Feat: cria funçáo ler_pdfs
Browse files Browse the repository at this point in the history
  • Loading branch information
jjesusfilho authored Sep 5, 2024
1 parent 7b9f084 commit b14ac49
Showing 1 changed file with 45 additions and 0 deletions.
45 changes: 45 additions & 0 deletions R/ler_pdfs
Original file line number Diff line number Diff line change
@@ -0,0 +1,45 @@
#' Wrapper de pdftools::pdf_text
#'
#' @param arquivos Vetor de arquivos
#' @param diretorio Alternativamente indicar onde se encontram os arquivos
#' @param combinar Combinar as páginas num escalar? Padrão combinar
#' @param basename Cominho completo ou apenas o nome do arquivo. Padrão apenas nome.
#'
#' @return tibble
#' @export
#'
ler_pdfs <- function(arquivos = NULL, diretorio = ".", combinar = TRUE, basename = TRUE){


if(is.null(arquivos)) {
arquivos <- list.files(diretorio, full.names = TRUE,
pattern = "pdf$")
}


purrr::map_dfr(arquivos, purrr::possibly(~{



suppressMessages({
texto <- pdftools::pdf_text(.x)
})


if(combinar) {
texto <- stringr::str_c(texto, collapse = "\n")
}

arquivo <- .x

if(basename){

arquivo <- basename(arquivo)
}

tibble::tibble(arquivo = arquivo, texto = texto)

}, NULL), .progress = TRUE)


}

0 comments on commit b14ac49

Please sign in to comment.