Aquesta pàgina explica com descarregar datasets de gran volum des de l’espai Disc del CSUC.

La documentació presenta dos procediments alternatius per dur a terme la descàrrega:

  • Mitjançant la interfície gràfica web
  • Mitjançant l’eina Rclone
Procediment 1 - Interfície gràfica

Accediu a l’enllaç situat a la secció de fitxers del dataset, identificat com "File access" / "Accés als fitxers" / "Acceso a los ficheros".

Un cop dins de l’espai, podreu visualitzar l’estructura del dataset i descarregar els fitxers. Limitacions: la descàrrega està limitada a 25 GB o 1.000 fitxers per sessió.



Procediment 2 - Rclone
Què és Rclone?
  • Eina de línia de comandes per gestionar fitxers en més de 70 proveïdors d'emmagatzematge al núvol
  • Equivalent a rsync, cp, mv, mount, ls per al núvol
  • Reanuda automàticament transferències interrompudes
Guia d'instal·lació Rclone (Linux)

Pas 1: Visita la pàgina oficial: https://rclone.org/

Pas 2: Instal·lació 

Ubuntu/Debian

curl https://rclone.org/install.sh | sudo bash

CentOS/RHEL/Fedora

curl https://rclone.org/install.sh | sudo bash

Arch Linux

sudo pacman -S rclone


També es pot descarregar directament des de https://rclone.org/downloads/

Guia d'instal·lació Rclone (MacOS)

Pas 1: Visita la pàgina oficial: https://rclone.org/

Pas 2: Instal·lació 

Homebrew

brew install rclone

MacPorts

sudo port install rclone


També es pot descarregar directament des de
https://rclone.org/downloads/

Guia d'instal·lació Rclone (Windows)

Pas 1: Visita la pàgina oficial: https://rclone.org/

Pas 2: Instal·lació 

Chocolatey

choco install rclone

Scoop

scoop install rclone

També es pot descarregar directament des de https://rclone.org/downloads/

Configuració inicial

Pas 3: Executa la configuració al Terminal o PowerShell:

rclone config

Passos:

  1. Selecciona "n" per a una nova configuració
  2. Introdueix el nom del remot (per exemple: "owncloud")
  3. Escull "webdav" com a tipus de remot
  4. Introdueix la URL del servidor (De l'enllaç https://disc.csuc.cat/s/ornFnBuUVtQDIjU, s'obté la url amb format https://disc.csuc.cat/remote.php/dav/public-files/ornFnBuUVtQDIjU que anirà a la configuració de Rclone)
  5. Escull "Other" com a vendor
  6. No necessites usuari ni contrasenya per a espais públics, Enter per deixar-ho buit
  7. No necessites bearer_token, Enter per deixar-ho buit
  8. Escull "n" per configuracions avançades
  9. Guarda la configuració
Instruccions de descàrrega

Comanda bàsica:

rclone sync "owncloud:/" ./dataset_local/ --progress --log-level INFO

Opcions avançades:

# Millor rendiment

rclone sync "owncloud:/" ./dataset_local/ --progress --log-level INFO --transfers=4 --checkers=8

# Limitació de banda

rclone sync "owncloud:/" ./dataset_local/ --progress --log-level INFO --bwlimit=1M

Opcions útils:

OpcióDescripció
--progressMostra el progrés de la transferència
--log-level INFOProporciona logs detallats
--transfers=4Transferències paral·leles
--checkers=8Verificadors paral·lels
--bwlimit=1MLimita l’ample de banda a 1MB/s

Reanudar descàrregues interrompudes:

rclone sync "owncloud:/" ./dataset_local/ --progress --log-level INFO

Exemples

Exemple 1: Dataset d'imatges

rclone sync "owncloud:/images/" ./imatges_dataset/ --progress --log-level INFO --include=".jpg" --include=".png" --exclude="*"

Exemple 2: Dataset CSV

rclone sync "owncloud:/csv/" ./csv_dataset/ --progress --log-level INFO --include=".csv" --exclude=""

Exemple 3: Dataset gran amb verificació

rclone sync "owncloud:/" ./large_dataset/ --progress --log-level INFO --checksum --stats
Solució de problemes

Verificar configuració:

rclone listremotes
rclone lsd "owncloud:"

Logs detallats:

rclone sync "owncloud:/" ./dataset_local/ --progress --log-level DEBUG -v

Verificar integritat:

rclone check "owncloud:/" ./dataset_local/ --one-way


Script d'automatització (Linux/MacOS)
#!/bin/bash
script_descarga.sh

REMOTE_NAME="owncloud"
REMOTE_PATH="dataset/"
LOCAL_DIR="./dataset_local"

echo "Iniciant descàrrega des de $REMOTE_NAME:$REMOTE_PATH"
rclone sync "$REMOTE_NAME:$REMOTE_PATH" "$LOCAL_DIR" --progress --log-level INFO --transfers=4 --checkers=8

if [ $? -eq 0 ]; then
echo "Descàrrega completada amb èxit"
else
echo "Error durant la descàrrega - pots reanudar executant la mateixa comanda"
exit 1
fi
Script d'automatització (Windows)
script_descarga.ps1

$remoteName = "owncloud"
$remotePath = "dataset/"
$localDir = "./dataset_local"

Write-Host "Iniciant descàrrega des de $remoteName`:$remotePath"
rclone sync "$remoteName`:$remotePath" $localDir --progress --log-level INFO --transfers=4 --checkers=8

if ($LASTEXITCODE -eq 0) {
Write-Host "Descàrrega completada amb èxit"
} else {
Write-Host "Error durant la descàrrega - pots reanudar executant la mateixa comanda"
exit 1
}
Referències i consells


Consells útils:

  • Utilitza sempre --progress --log-level INFO per monitoritzar el procés
  • En cas de tall, reexecuta la comanda: rclone reanuda automàticament
  • Per a datasets grans, considera --bwlimit per evitar saturar la connexió
  • Verifica la integritat amb rclone check



  • No labels