Наши проекты:
3D печать и услуги :
Wiki :
Сувениры :
Walkarounds :
ВНИМАНИЕ: Сайт пока работает в тестовом режиме после переезда! Что-то может работать не так как ожидается, проверяем...
Часто бывает, что во всяких валкараундах и прочем файлы в целом имеют одинаковые названия, различающиеся некой отдельной частью, причем эта часть изменяется закономерно. Ну скажем, имена могут быть такими:
img01,img02,img03
xxxa,xxxb,xxxc
и даже
img1,img3,img5
Соответственно, хорошо бы сгенерить список путей этих файлов в автомате для помещения в качалку, задав лишь общий шаблон пути, функцию изменяемой части и пределы ее изменения. Есть ли прога для этого, чтоб результат в текстовом формате давала? А то вручную умучаешься...
Нет, со скалы я качать не собираюсь, к тому же под простую последовательность 1,2,3 у меня уже шаблоны есть. А нужно скачать последовательность вида 8621053,8621075,8621097 и так далее. Делать шаблон вручную влом, но если не найдется автоматизированное решение - сделаю все равно. Ибо много там интересного...
Соответственно, хорошо бы сгенерить список путей этих файлов в автомате для помещения в качалку, задав лишь общий шаблон пути, функцию изменяемой части и пределы ее изменения. Есть ли прога для этого, чтоб результат в текстовом формате давала? А то вручную умучаешься...
проги такие есть, много их, как консольные, так и с дружелюбным интерфейсом, а само желаемое действие, что уважаемый бвана нам пытается объяснить, называется "поиск по маске", в качательных качалках выбираем эту опцию и ставим что-то типа:
"сохранять файлы *.jpg, *.png, *.blah-blah-blah"
Michael_XIII
да ладно, забанит, вот любите Вы, дяденька Вождь, народ стращать небывальщиной, что-то ни разу мой уютненький wget не был забанен
а само желаемое действие, что уважаемый бвана нам пытается объяснить, называется "поиск по маске", в качательных качалках выбираем эту опцию и ставим что-то типа:
"сохранять файлы *.jpg, *.png, *.blah-blah-blah"
не, то что я пытаюсь объяснить, совсем другое. Есть сайт, на нем несколько миллионов фоток. отдельные группировки фоток интересны, у каждой группировки уникальный путь и фотки внутри группы различаются только номером (причем. как я уже писал, не со сплошной нумерацией). Для качки беру вгет и делаю файл, в котором идет вот такая последовательность:
z0000x
z0023x
z0046x
z0069x
z0092x
z0115x
И далее, пока сделал почти до 4000, это изменяющаяся часть пути файла. Далее выясняется название последнего файла в интересующей группе, список подгоняется по размеру, а далее z и x в ворде заменяются на соответствующие части пути и имени файла. Готовый список скармливается вгету. Вот создание подобных списков изменяющихся частей, а лучше так прямо списков путей хотелось бы автоматизировать... Задача несложная при минимальных навыках программирования, но мне надо, чтоб просто в винде была наглядная прога. Нету ее - ну и буду делать вручную...
Что касается банов, то нагрузка на подопытный сервер невелика - самая большая подборка потянула всего на 15 метров. Так что не за что меня банить
Снорри ну тогда wget с ключом -О по индексным файлам, рекурсивно с переходом по дочерним/вложенным страницам, все стянутые индексные (*.htm, *.html, и протчая))) вгонять в один общий файл и парсить на предмет адресов графических файлов (grep, sed, cut и awk в руки) на выходе имеем базу только по графическим файлам на ресурсе, фигня и бяка заключается в том, что в эту базу попадут и превьюшки/иконки и прочая мелочная и ненужная суть.
Если не секрет, то зачем такой мартышкин труд? Ведь пока графическое файло не глянешь визуально браузером или не стянешь локально на винт по имени нифига не определишь, нужна ли нам эта *.jpg или нет.
не, то что я пытаюсь объяснить, совсем другое. Есть сайт, на нем несколько миллионов фоток. отдельные группировки фоток интересны, у каждой группировки уникальный путь и фотки внутри группы различаются только номером (причем. как я уже писал, не со сплошной нумерацией). Для качки беру вгет и делаю файл, в котором идет вот такая последовательность:
z0000x
z0023x
z0046x
z0069x
z0092x
z0115x
И далее, пока сделал почти до 4000, это изменяющаяся часть пути файла. Далее выясняется название последнего файла в интересующей группе, список подгоняется по размеру, а далее z и x в ворде заменяются на соответствующие части пути и имени файла. Готовый список скармливается вгету. Вот создание подобных списков изменяющихся частей, а лучше так прямо списков путей хотелось бы автоматизировать... Задача несложная при минимальных навыках программирования, но мне надо, чтоб просто в винде была наглядная прога. Нету ее - ну и буду делать вручную...
Что касается банов, то нагрузка на подопытный сервер невелика - самая большая подборка потянула всего на 15 метров. Так что не за что меня банить
Если путь уникальный - ну тяните всё. Потом лишнее сотрёте
при задаче группы закачек, позволяет по шаблону выбирать диапазон значений (с любым шагом, или используя буквы)
Вот это пожалуй, оно самое и есть. Проверю на будущее.
Old_Punk писал(а):
Если не секрет, то зачем такой мартышкин труд? Ведь пока графическое файло не глянешь визуально браузером или не стянешь локально на винт по имени нифига не определишь, нужна ли нам эта *.jpg или нет.
Э-э-э... там такой сай. что проще сначала все выкачать, а потом на винте глянуть, нежели на страничке открывать. От превьюшек бровзер сильно тормозит...
Э-э-э... там такой сай. что проще сначала все выкачать, а потом на винте глянуть, нежели на страничке открывать. От превьюшек бровзер сильно тормозит...
И вот мы плавно возвращаемся сюда:
Код:
wget -c _полный_адрес_главной_нужного_сайта_с_указанием_протокола_(http://blah-blah-blah.blah )_ -r -nd -A jpg,JPG,png,PNG,gif,GIF,tiff,TIFF
нужные расширения добавляем сами, запускаем вджет из директории, куда будем сохранять контент, единственный совет, в вин-версии вджета синтаксис и ключи могут немного отличаться, посему первый раз можно подстраховаться:
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете вкладывать файлы Вы не можете скачивать файлы