Recorrer los archivos de la carpeta y el proceso en scala

Question 1

Tengo un par de archivos en una carpeta para los diferentes países. como el de abajo

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

ahora tengo para el proceso de tomar estos archivos de proceso según país de sabios y copia de las respectivas carpetas. mi carpeta de destino de la estructura será como

2021-->11-->GBR

2021-->11-->ARG

En la chispa de la scala/scala me ayudan a escribir código para el archivo de proceso por país y mover a los respectivos países de la carpeta.

Question 2

Suena como que usted está buscando partitionBy definido en DataFrameWriter. Desde el scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Las particiones de la salida del dado columnas en el sistema de archivos. Si se especifica, el resultado se presenta en el sistema de archivos similar a la Colmena del esquema de particionamiento. Como un ejemplo, cuando nos partición de un conjunto de datos por año y mes, el diseño del directorio, se vería así:

year=2016/month=01/
year=2016/month=02/

El particionamiento es una de las técnicas más empleadas para optimizar la física, el diseño de los datos. Proporciona un grano grueso índice de omisión de datos innecesarios lee cuando las consultas se han predicados en las columnas de partición. En orden para la partición para funcionar bien, el número de valores distintos en cada columna normalmente debe ser menor que decenas de miles de personas.

Esto es aplicable para todos los archivos basados en fuentes de datos (por ejemplo, Parquet, JSON) a partir de Chispa 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Suena como que usted está buscando partitionBy definido en DataFrameWriter. Desde el scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Las particiones de la salida del dado columnas en el sistema de archivos. Si se especifica, el resultado se presenta en el sistema de archivos similar a la Colmena del esquema de particionamiento. Como un ejemplo, cuando nos partición de un conjunto de datos por año y mes, el diseño del directorio, se vería así:

year=2016/month=01/
year=2016/month=02/

El particionamiento es una de las técnicas más empleadas para optimizar la física, el diseño de los datos. Proporciona un grano grueso índice de omisión de datos innecesarios lee cuando las consultas se han predicados en las columnas de partición. En orden para la partición para funcionar bien, el número de valores distintos en cada columna normalmente debe ser menor que decenas de miles de personas.

Esto es aplicable para todos los archivos basados en fuentes de datos (por ejemplo, Parquet, JSON) a partir de Chispa 2.1.0.

existe de todos modos para obtener como 2016/01 y foreach ayuda a recorrer uno por uno los archivos
tengo que procesar una por una archivo en dataframe y copia en de blob

Recorrer los archivos de la carpeta y el proceso en scala

Pregunta

Mejor respuesta

En otros idiomas

Esta página está en otros idiomas

Popular en esta categoría

Las preguntas más habituales en esta categoría