yakov_a_jerkov: (Default)
[personal profile] yakov_a_jerkov
Есть в этом какая-то проблема, если на Windows в одном folder миллион (один миллион, буквально) файлов?

У меня сейчас в одном фолдере триста тысяч -- небольшие jpg-файлы, общий размер всего 4 GB -- вроде, никаких проблем нет. Но я не знаю, какой-то предел должен быть, наверное.

Поясню, зачем мне это нужно. Я с ноября пытаюсь научиться разному в области machine learning, и, в частности, neural networks. Сейчас пытаюсь сделать что-то с этой задачей на Kaggle.com, и там training set как раз имеет 1.1 миллиона картинок.

Date: 2018-03-25 12:42 am (UTC)
From: [identity profile] ign.livejournal.com
По спецификации, NTFS поддерживает 4,294,967,295 файлов на диске. В принципе, все 4 миллиарда могут быть в одном фолдере, файловой системе все равно.

Но, конечно, некоторым аппликациям, которые недостаточно хорошо оптимизированы, может быть не все равно. Поэтому обычно их все же разносят по сабфолдерам, по какому-нибудь хешу, например, или по первой паре букв в названии если они достаточно рандомизированы, и.т.п.

Date: 2018-03-25 12:44 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
файловой системе все равно

Спасибо, не знал этого.

Date: 2018-03-25 01:24 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
Maximum number of files in a single folder: 4,294,967,295

но, это будет медленно :) убрать фолдер из windows search indexer стоит.

Date: 2018-03-25 02:10 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
убрать фолдер из windows search indexer стоит

Спасибо.

Date: 2018-03-25 09:22 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
да не за што :)

Date: 2018-03-25 01:42 am (UTC)
From: [identity profile] evlasov.livejournal.com
Я работал с овер 1000000 файлов в R и питоне, проблем не заметил. Если что, каждый файл представлял из себя шесть двузначных цифр, разделённых пробелами. В питоне я вместо базы данных строки из краулера в отдельные файлы сохранял. Некогда учиться было, надо было делать ;)

Date: 2018-03-25 02:12 am (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Некогда учиться было, надо было делать ;)

В принципе, смысл в этом есть. Учиться можно/нужно бесконечно.

Date: 2018-03-25 06:37 am (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
А попробуйте-ка удалить их.

Date: 2018-03-25 09:21 am (UTC)
From: [identity profile] ordinary-joe-1.livejournal.com
удалять их конешно надо из cmd или powershell, тогда всё получится.

Date: 2018-03-25 03:00 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Я их moved с одного диска на другой. Без проблем, но тогда их еще было меньше ста тысяч. Сейчас не пробовал.

Date: 2018-03-25 05:28 pm (UTC)
ext_605364: geg MOPO4 (Default)
From: [identity profile] gegmopo4.livejournal.com
Проблемы могут проявиться на миллионах файлов. https://bugs.python.org/issue32453 Но может быть это только на Linux, и Windows умнее. Кстати, диск SSD или HDD? На SDD вроде проблема мягче.

Date: 2018-03-25 11:45 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
к верно сказаному выше про проблемы с отдельными приложениями добавлю, что еще могут быть неприятности с размером списка имен файлов, особенно если они у Вас лежат где то в Документах и сам путь до того фолдера -- достаточно длинная строка

Date: 2018-03-25 03:17 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
Спасибо. Я их загружаю на несистемный диск, который почти пустой.

Date: 2018-03-25 02:18 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Файловая система ОС - плохая база данных ;)

Date: 2018-03-25 02:44 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
наоборот. если по природе данных к ним не может иметь отношения "история транзакций", то она -- лучшая

Date: 2018-03-25 03:44 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Это не так. Многие люди так думали и обжигались на этом. Я на двух работах был тому свидетелем.

Ни управляемого кэширования, ни быстрой статистики, ни автоматического индексирования, ни разумного хэндлинга сбоев сетевой NTFS если сеть используется плюс все остальное тормозит.

Date: 2018-03-26 02:14 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
надо поставить пятидесятый рейд с самым простеньким контроллером с батарейкой. и он этим всем будет заниматься сам. а человек -- полезной логикой

Date: 2018-03-26 04:50 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Скажу так: в моей прошлой конторе было айтишников человек 500. И много умных. Они тоже думали, что контроллер будет сам. Сбоило периодически.

Date: 2018-03-26 04:51 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Но конечно, это все относится к большим масштабам. В небольших масштабах можно и с файлами, но эти не очень хорошо scalable.

Date: 2018-03-27 02:19 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
если Вам показалось, будто бы я предлагал решить все информационные проблемы в индустрии масштаба "только айтишников полтыщи" с помошью одной карточки за восемьдесят долларов, то оно Вам совершенно напрасно так показалось

Date: 2018-03-25 03:27 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
А как было бы правильно обходиться с этими файлами?

Date: 2018-03-25 03:55 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Я не думаю, что есть одно «правильное» решение.

Надо прикинуть что Вам нужно. Как Вы хотите организовывать эти файлы и результаты работы с ними. Нужно ли кэширование чего-нибудь. В таком духе.

Файлы перестают хорошо работать когда их становится много и структура данных усложняется. Надо искать лучшую БД которая удовлетворяет вашим нуждам.

Date: 2018-03-25 04:21 pm (UTC)
From: [identity profile] yakov-a-jerkov.livejournal.com
У меня есть csv файл с миллионом urls фотографий (почти все на Гугле). То есть сначала мне нужно загрузить эти файлы, что я и делаю в один фолдер.

Дальше я уже загружаю эти images как arrays и использую их как inputs neural network. Сами файлы после этого больше не трогаю.

Я пока применял neural network (довольно безуспешно) только к подмножеству из десяти тысяч фотографий. Проблем с памятью пока не было. Наверное, проблемы возникнут, когда я увеличу число фотографий в training set.

Date: 2018-03-26 04:54 pm (UTC)
From: [identity profile] nefedor.livejournal.com

Ну я же не знаю вашей специфики. Может быть, кроме массива пикселов, Вам нужно хранить какие-то параметры? А как насчёт хранения результата?

Вообще говоря, правильно - это когда система бесконечно scalable. Скажем, память на компьютере ограничена, но можно иметь сколько угодно компьютеров.

Profile

yakov_a_jerkov: (Default)
yakov_a_jerkov

June 2025

S M T W T F S
1 2 3 4 567
8 910 11 12 13 14
15 16 17 18 19 20 21
2223 2425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 25th, 2025 01:05 pm
Powered by Dreamwidth Studios