Problema al intentar leer un archivo de texto en databricks uso de Local de Archivo de la API en lugar de la Chispa de la API

Question 1

Estoy tratando de leer un pequeño archivo de texto que se agrega como una tabla para el valor predeterminado db en Databricks. Al intentar leer el archivo Local a través de la API de Archivo, me sale un FileNotFoundErrorpero soy capaz de leer en el mismo archivo como Chispa RDD utilizando SparkContext.

Por favor, encontrar el código de abajo:

with open("/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Esto me da el error:

FileNotFoundError                         Traceback (most recent call last)
<command-2618449717515592> in <module>
----> 1 with open("dbfs:/FileStore/tables/boringwords.txt", "r") as f_read:
      2   for line in f_read:
      3     print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'dbfs:/FileStore/tables/boringwords.txt'

Donde, como, no tengo ningún problema en leer el archivo con SparkContext:

boring_words = sc.textFile("/FileStore/tables/boringwords.txt")
set(i.strip() for i in boring_words.collect())

Y como era de esperar, puedo obtener el resultado para el bloque de código de arriba:

Out[4]: {'mad',
 'mobile',
 'filename',
 'circle',
 'cookies',
 'immigration',
 'anticipated',
 'editorials',
 'review'}

Me estaba refiriendo también a la DBFS documentación aquí para entender el Archivo Local de la API de limitaciones, pero de ninguna ventaja sobre el tema. Cualquier ayuda sería muy apreciada. Gracias!

Question 2

El problema es que usted está usando la open función que sólo funciona con archivos locales, y no sabe nada acerca de DBFS, o de otros sistemas de archivos. Para que esto funcione, es necesario utilizar DBFS local de la API de archivo y anexar la /dbfs prefijo de ruta de acceso del archivo: /dbfs/FileStore/....:

with open("/dbfs/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Question 3

Alternativamente, usted puede simplemente utilizar el built-in csv método:

df = spark.read.csv("dbfs:/FileStore/tables/boringwords.txt")

Question 4

También podemos utilizar dbutils

files = dbutils.fs.ls('/FileStore/tables/')
li = []
for fi in files: 
  print(fi.path)

Ejemplo ,

Alex Ott · Answer 1 · 2021-11-24T07:56:14

El problema es que usted está usando la open función que sólo funciona con archivos locales, y no sabe nada acerca de DBFS, o de otros sistemas de archivos. Para que esto funcione, es necesario utilizar DBFS local de la API de archivo y anexar la /dbfs prefijo de ruta de acceso del archivo: /dbfs/FileStore/....:

with open("/dbfs/FileStore/tables/boringwords.txt", "r") as f_read:
  for line in f_read:
    print(line)

Luiz Viola · Answer 2 · 2021-11-24T08:51:27

Alternativamente, usted puede simplemente utilizar el built-in csv método:

df = spark.read.csv("dbfs:/FileStore/tables/boringwords.txt")

Karthikeyan Rasipalay Durairaj · Answer 3 · 2021-11-24T18:26:17

También podemos utilizar dbutils

files = dbutils.fs.ls('/FileStore/tables/')
li = []
for fi in files: 
  print(fi.path)

Ejemplo ,

Problema al intentar leer un archivo de texto en databricks uso de Local de Archivo de la API en lugar de la Chispa de la API

Pregunta

En otros idiomas

Esta página está en otros idiomas

Popular en esta categoría

Las preguntas más habituales en esta categoría