37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Lasyavati RE:Zelenir - Под крылом 32 мин.
Zadd RE:Как вернуть нормальные цвета текста/фона в читалке? 2 часа aidarfar RE:Подайте бедному копеечку на книжку с литреса... 2 дня Isais RE:Курьезы сканировщика 4 дня Larisa_F RE:Национальный конкурс на лучшее литературное произведение... 6 дней Isais RE:Древний Рим. Подборка книг 1 неделя Violontan RE:Очень нужен портабельный Fiction Book Editor 1 неделя nehug@cheaphub.net RE:Как скачивать книги с сайта? 2 недели Paul von Sokolovski RE:Убить есепкина 3 недели sem14 RE:Шпионы и разведчики 3 недели Larisa_F RE:«Пламенные революционеры» — книжная серия Политиздата 3 недели babajga RE:Смерть на Темзе 3 недели alexk RE:Литрес. Аттракцион неслыханной щедрости! 3 недели Nicout RE:Фигуры света 1 месяц suqablyat RE:Лицей 2020 (сборник) 1 месяц monochka RE:Отв: Продолжение темы: писатели и их зверюшки. 1 месяц Dead_Space RE:EOF при загрузке страницы 1 месяц Bibliofile RE:Багрепорт - 2 1 месяц Впечатления о книгах
Lena Stol про Коткин: Из жизни одного студента (Фэнтези, Приключения: прочее, ЛитРПГ, Самиздат, сетевая литература)
20 05 Понравилось, автор пишет так, вроде ничего особенного, нет особой динамики, несчастья на героя не сыпятся одно за другим, а книга читается и, к моему сожалению, заканчивается.
Astron про Валентинов: Норби (Альтернативная история, Боевая фантастика, Детективная фантастика)
19 05 Шмалько пробил очередное днище бездарности. Видимо начал шмалить что-то покрепче. И даже попытки плагиата у Сапковского книжонку не спасают, а окончательно хоронят, ибо некуда приткнуть украденное, оно виснет в пустоте шмальковского черепа. Оценка: нечитаемо
Astron про Некрасов: Время просить прощения [litres] (Боевая фантастика)
19 05 А тут есть вообще модераторы? Конченый, отбитый нацист Nicout пишет свою нацистскую бредятину, а его почему-то никто не банит. Я конечно понимаю - йододефицит страшная болезнь, от неё можно и не до такого докатиться. Но тем ………
Vasyan2000 про Некрасов: Время просить прощения [litres] (Боевая фантастика)
19 05 Urgash,да, гниль из первого поста можно исправить только очищающим огнем. Оценка: неплохо
DGOBLEK про Каганов: День академика Похеля [Сборник. Компиляция, отсутствует статья и авторские предисловия] (Юмористическая фантастика, Научная фантастика)
19 05 Компиляция, в книге отсутствует статья (Фантастическая сенсация: фокусы с разоблачением, стр. 381-400) и все авторские предисловия к рассказам.
Г.Гуслия про Андрей Стоев
19 05 Очень и очень неплохо. Конечно смешат абсолютно дебильные, зато патриотические, представления ГГ о западной жизни, но это почти не мешает восприятию. Ну и мелкие технические глупости, вроде поисков месторождений феррованадия ………
Lena Stol про Каменистый: На руинах Мальрока [litres] (Фэнтези, Попаданцы)
18 05 Второй раз пытаюсь преодолеть эту книгу, и опять никак. Много отступлений, диалоги превращаются в такие монологи, что забываешь о чём вообще речь.
Borger про Большаков: Страшное проклятие (Шедевр и другие похождения Эдика. Утриш.) [СИ] (Юмористическая проза, Самиздат, сетевая литература)
18 05 >В публикации бережно сохранены особенности авторской орфографии, пунктуации и лексикона. И нахрена? Какая-то мода пошла дебильное на оправдание отсутствия проверки и корректуры. Нафиг. Оценка: нечитаемо
Urgash про Некрасов: Время просить прощения [litres] (Боевая фантастика)
18 05 Совершенно типовая попаданческая история. Насквозь вторичная. Всё это уже было, может не в такой концентрации, и немного с другими героями. А так да, пропаганда. Адепт секты Овального описан достоверно. Информационный посыл ……… Оценка: неплохо
kaviron про Агишев: Знаю [СИ] (Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
18 05 вся серия поверхностна. суть написания абсолютный примитивизм. и глав герой с уровнем развития семилетки это лишь подтверждает. если у вас задержка с развитием. вы не ищите сюжета как такового этот перл вам подойдет, в ином случае крайне не рекомендую. Оценка: нечитаемо
Nicout про Некрасов: Время просить прощения [litres] (Боевая фантастика)
18 05 Омерзительная пропагандонская книжонка. Не то плохо, что полное и бездарное вранье, а то, что афтар ловко и незаметно передергивает, переводит со своих, отечественных сволочей на немцев. С немцами давно разобрались, а вот ……… Оценка: нечитаемо
irukan про Шеллина: Изменить судьбу. Вот это я попал [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
18 05 Прочитал с удовольствием. Читается легко, хороший язык. Только вчера узнал про автора. Выложившему — огромная просьба залить и остальные книги. Оценка: отлично! |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/