yakov_a_jerkov: (Default)
[personal profile] yakov_a_jerkov
Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?

У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.

Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.

Date: 2018-03-25 04:21 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
У меня есть csv файл с миллионом urls фотографий (почти все на Гугле). То есть сначала мне нужно загрузить эти файлы, что я и делаю в один фолдер.

Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.

Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.

Date: 2018-03-26 04:54 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?

Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.

Profile

yakov_a_jerkov: (Default)
yakov_a_jerkov

June 2025

S M T W T F S
1 2 3 4 567
8 910 11 12 13 14
15 16 17 18 19 20 21
2223 2425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 25th, 2025 05:18 pm
Powered by Dreamwidth Studios