Вычитка #5 (2010-I)

Теперь главная тема по вычитке здесь.

Архив тем:
1. 2008-I
2. 2008-II — 2009-I
3. 2009-II
4. 2009-III

таблица: http://spreadsheets.google.com/pub?key=psStiaWgJ7Suju2UxmDWpKA

Если в таблице не нашлось ничего интересного для Вас, обратите своё внимание на список книг, сделанных LibRusEc kit'ом: http://lib.rus.ec/stat/document-author/rusec. Книги из этого списка нуждаются в доработке: форматировании и вычитке.

Если Вы берёте книгу из таблицы, отпишитесь в этой теме, чтобы можно было сделать необходимые пометки. Если книга не из таблицы, внесите на странице редактирования в поле "Доп. инф." информацию о том, что книга в работе.

Если Вы владеете форматом fb2, можно выбрать книги текстовых или других форматов по этой ссылке http://lib.rus.ec/stat/tot и конвертировать их в предпочтительный в нашей библиотеке формат. Учитывайте при этом целесообразность такого конвертирования.

Присоединяйтесь к нам! :)
Обращение golma1'ы:

golma1 написал:
Уважаемые желающие поучаствовать в проекте "Вычитка"!

Тем, кто не знаком с форматом fb2, рекомендую вначале заглянуть в эту книгу. Здесь в популярной форме даются описания и разъяснения основных моментов этого формата. Если вдруг что-то окажется непонятным, всегда можно обратиться с вопросом в форум, вам обязательно помогут. Нужные для работы с fb2-файлами программы вы найдёте здесь.

Книги, сделанные в fb2 и нуждающиеся в вычитке, следует и вычитывать в этом формате. При конвертировании файла в текстовый формат неизбежно теряются ценные детали форматирования, восстановить которые впоследствии если и возможно, то очень трудоёмко.

Под вычиткой подразумевается:
1. Исправление ошибок OCR.
2. Форматирование текста:
- разбиение текста на части, главы, подглавы (секции и вложенные секции, тэги title и subtitle)
- выделение жирным и наклонным шрифтом (тэги strong и emphasis)
- проставление разделений в тексте (тэг empty-line)
- проверка скриптами
3. Заполнение дескриптора (обложка, аннотация, выходные данные книги)
4. При необходимости конвертирование в fb2-формат.

Для вычитки можно пользоваться читалкой AlReader Vobis Edition или редактором FictionBookEditor. Ссылки на обе программы были даны выше.
В самом крайнем случае, файл fb2 можно открыть текстовым редактором, сохраняя при этом все тэги. В этом случае, если изменения вносятся только в текст, форматирование сохраняется.

Убедительная просьба - не конвертировать fb2-файлы в текстовый формат. Не забывайте, что fb2 является предпочтительным форматом нашей библиотеки и книги следует заливать, по возможности, в нём. И уж во всяком случае, не стоит заменять формат fb2 другим форматом.

Если почему-то вам не хочется разбираться в формате fb2, берите на вычитку книги, представленные в библиотеке в текстовом формате. Их можно заливать в том виде, в каком вы их скачали.
Также можно брать файлы в форматах djvu или pdf и распознать их в текстовый формат. Однако это касается преимущественно художественной литературы, т.е. произведений, состоящих в основном из текста. Книги с множеством иллюстраций, таблиц, формул лучше оставить в том виде, в каком они есть.

Если я что-то упустила или невнятно сформулировала, спрашивайте. :)

Обращаю внимание всех, делающих первые шаги в верстании электронных книг, на мануалы, предоставленные уважаемым wotti.
Они помогут Вам разобраться в пользовании самой распространённой программой FBE.
Всем привет! :)

Помогите, пожалуйста, перевести книгу http://lib.rus.ec/b/356194 из pdf в fb2. Бабушка на яблоне есть в fb2, но хотела скачать эту из-за "Мохнатки". Сама fb2 не владею, добавляю книги обычно в rtf, если есть у кого-то желание и возможность, помогите сменить формат.

Берусь .)

Перевел книгу в fb2, сохранил часть картинок (те что на всю страницу)
http://lib.rus.ec/b/395386

vakhet написал:
Перевел книгу в fb2, сохранил часть картинок (те что на всю страницу)
А почему не все? Айяяй! Непорядок! Брак!

Скачал архивом две книги Владимира Чивилихина в двух частях книгу-эссе "Память" и на четвёртой странице обнаружил ляп тамошниечитатели отсутствует пробел. Это я могу исправить.

Аватар пользователя s_Sergius

vsevog написал:
Скачал архивом две книги Владимира Чивилихина в двух частях книгу-эссе "Память" и на четвёртой странице обнаружил ляп тамошниечитатели отсутствует пробел. Это я могу исправить.

Исправляйте. Но из-за одного исправления файл перезаливать не стоит. Читайте дальше. Если подобных правок наберется некоторое значимое количество (штук 10 хотя бы), то тогда и замените.

Прочитал книгу Даниила Гранина "Автобиография", дал на сайте рецензию, затем проверил. И так и не понял из какого источника вышла эта книга. Так как нет никаких данных по ней. Почему? Как так можно производить заливку?

Нужно вычитать и сверстать книгу "Субмарина" http://lib.rus.ec/node/319128
есть файл doc

Аватар пользователя alexej36

Юле4ка написал:
Нужно вычитать и сверстать книгу "Субмарина" http://lib.rus.ec/node/319128
есть файл doc

Если нужно вычитать - зачем "файл doc" - сканы нужны :)

Вычитать - это в ворде прочесть книгу и исправить все ошибки, оставшиеся после распознавания. А так же оформить - сделать заголовки, стихи, цитаты и т.д.
А сканы я уже распознала :)

Сканы таки нужны.
Некоторые ошибки OCR, а также разрывы абзацев при переходе со страницы на страницу, и многое другое, требует сканов для сверки.
Уж поверьте граммар-наци.

Сканы тоже есть.

Аватар пользователя alexej36

.

Может быть кому-нибудь встречалось подчеркнутое слово, помогите распознать пожалуйста:

А из какого это произведения?

А скажите, пожалуйста, вы делаете файл со старой орфографией?
Или?

sem14 написал:
А скажите, пожалуйста, вы делаете файл со старой орфографией?
Или?

Или. Перевожу в современную орфографию.

Цитата:
Может быть кому-нибудь встречалось подчеркнутое слово, помогите распознать пожалуйста:

Скорее всего диалектное "к панушке (понюшке) табаку".

Тоже к этому склонялась. Спасибо.

Не спешите, "панушка" и "понюшка", хоть и звучат похоже, но у них совершенно разное значение.
Может быть и "к папушке":

Цитата:
ПАПУШКА - перс, рapusch). 1) то же, что бабушка. 2) связка табачных листьев.

Цитата:
ПАПУШКА. (устар. и спец.) ◊ Папушка табаку. — Встретится сторож из казенного леса, разговорится о том ...как бы хорошо было достать где-нибудь папушку табаку. Кронин.

Скорее всего вы правы

Цитата:
Орфографический словарь
папуша, -и, тв. -ей (связка табачных листьев, бумаг)
Большой толковый словарь
ПАПУША, -и; ж. [румын. papusa] Спец. и обл.
Связка табачных листьев, сена, травы и т.п. П. табаку

Да и по тексту, это скорее буква "п" , а не "н".

О, точно подходит. Не хотела на догадках основываться, спасибо большое. И еще раз спасибо :)
Это из книги Дмитрия Стахеева "За Байкалом и на Амуре. Путевые картины"

Взял на конвертацию книги от сюда http://lib.rus.ec/a/7637
Параллельно еще и вычитываю, но там их много. Если кто готов помочь буду благодарен.
И собственно вопрос, заливать-ли с конвертированные книги без вычитки или лучше не стоит?

Да, кстати, еще вопрос у Ивана Мак не во всех книгах есть разбиение на главы, хотя в некоторых местах есть не сколько пропущенных строк, делать-ли деление на главы или не стоит.

Nasgul написал:
Взял на конвертацию книги от сюда http://lib.rus.ec/a/7637
Параллельно еще и вычитываю, но там их много. Если кто готов помочь буду благодарен.
И собственно вопрос, заливать-ли с конвертированные книги без вычитки или лучше не стоит?

Без бумажного оригинала (там ведь всё сишное?) вам лучше не вычитывать.
Nasgul написал:
Да, кстати, еще вопрос у Ивана Мак не во всех книгах есть разбиение на главы, хотя в некоторых местах есть не сколько пропущенных строк, делать-ли деление на главы или не стоит.

Иногда большими отступами обозначают новую главу, по смыслу надо смотреть (опять же без бумаги если). Можно так разбить:
<section>
   <p>текст текст текст текст</p>
  </section>
  <section>
   <title>
    <empty-line/>
   </title>
   <p>текст текст текст текст</p>
  </section>

Будет лучше нескольких empty-line подряд.

Ясно. Хотя я в основном правлю только явные грамматические ошибки, так что думаю это не критично...
Скоро наверно уже закончу с конвертацией и залью.
С главами тогда уж не буду заморачиваться.

Здравствуйте. "Жив он или умер" Твена в конце поперхнулся полутора абзацами текста из другого:

Я попыталась исправить текст и узнала, что "файл достаточно хорош. Нет смысла в его улучшении". Ненужный абзац, на мой взгляд, все же убрать стоит. :)

Если на книге стоит знак качества, то перезалить ее нельзя. Нужно просить библиотекарей залить вашу версию книги.

Если речь о рассказе http://lib.rus.ec/b/149911, то там нет знака качества. В исправленном файле нужно просто номер версии до 1.1 увеличить.

UPD. А там точно ошибка в этом абзаце? Идентичный рассказ в 10 томе (http://lib.rus.ec/b/298475/read#t105) Просьба без наличия бумажного оригинала ничего не исправлять.

Добрый день!
Вычитал книгу Стивена Кинга "Потаённое окно, потаённый сад" (b252643), исправил порядка 20 ошибок OCR. В "description" только увеличил номер версии (с 1.2 на 1.3); других правок не делал, ID не менял. Но книга не заменилась, а расположилась рядом (b399925).
Просьба к библиотекарям - решить судьбу этой версии файла.

Уважаемый Iron Man, замена проведена.

http://lib.rus.ec/b/399925

Спасибо!

Всем доброго времени суток.
Столкнулся с такой проблемой
имеем файл со структурой типа:


Вроде бы все нормально и структура в общем и целом совпадает с той что описана в книжке Кондратовича.
Но FBE упорно твердит что файл не валиден, при этом курсор ошибке вечно оказывается на тегe <epigraph>
Так что я уже запутался...
Если кому не трудно может объяснить на пальцах в чем я не прав, и как эти эпиграфы расставлять, просто до этого как не приходилось с ними сталкиваться.

Секция не может заканчиваться эпиграфом. Если есть эпиграф, то предполагается, что дальше после него идёт <p> или <subtitle>. И только после этого можно закрыть секцию.

Ну это я понимаю...
Дальше после эпиграфа идет текст, который забран в теги <p>
что бы было понятнее вот кусок текста в месте с кодом
Пример номер 1, тут как я понял именно тот случай что нет тегов <p> и <subtitle>


Тогда не понятно на что он ругается здесь
пример 2

На то что несколько тегой <epigraph> идут подряд, но я исправлял, а он все равно ругается...
Если не трудно то сделайте как должно быть, что бы на примере было видно.
Спасибо.

Я продублировал Ваш вопрос тут
http://lib.rus.ec/node/335437

Давайте не будем засорять тему офф-топиком.

Спасибо.
Я уже читаю ту тему...

Во-первых, давайте Вы перенесёте (продублируете) свой пост туда
http://lib.rus.ec/node/335437

Там же и получите ответ.

Хочу и могу помочь в сканировании своих книг, отсутствующих в библиотеке или из списка.
Версткой и вычиткой заниматься возможности и желания нет, только сканирование.

К кому обратиться в каком разрешении и формате сканировать, что-то еще что мне нужно знать?

1. Огласите весь список, пожалуйста(с) Может, сразу набегут желающие конвертировать.
2. Оптимальная резолюция при сканировании текста - 300dpi. Можно в jpg.

Ну например есть Справочник "Мир Толкина" в формате близком к А5 середины 90-х прошлого века. Искал в библиотеке по Толкину - ничего похожего по названию нет. Страницы в ней художественно оформлены, вероятно нужно будет делать в djvu/pdf. Многостраничный pdf без OCR могу сделать сразу при сканировании, но возникает вопрос как удобнее для дальнейшего оформления в библиотеку.

Есть еще несколько книг малого тиража, но их не проверял.

Попробуйте создать свою тему на форуме - что-то типа этого: http://lib.rus.ec/node/412865
Посмотрите указанную тему и вы заметите, как махом люди сканы разбирают))))

Вычитал повесть Василия Аксёнова "Затоваренная бочкотара" по бумажному оригиналу (журнал "Юность", № 3, 1968 - похоже, первая публикация повести), исправил более 45 ошибок OCR, добавил иллюстрации из того же журнала. Был файл b/673, стал b/402832.

Есть распечатанная примерно полгода назад и прочитанная книга Вернора Винджа "Конец радуг" с помеченными ошибками (>10). Беглый просмотр актуальной версии - эти ошибки ещё есть (например: поиск "сли се сторона проигрывала" должно быть "её"). Электронный вариант утерян. Сейчас скачать эту книгу для правки не могу.

afj написал:
... Сейчас скачать эту книгу для правки не могу.

http://coollib.net/b/78095

Исправлена и добавлена. Надеюсь версии совпадали (исправленная версия увеличена мной до 1.1).
Пара замечаний по правке:
1. В одном месте "Боб" заменено на "Роберт", поскольку речь идёт о Роберте Гу-старшем.
2. Написание "миз Чамлиг" - правильное.

на всякий случай. Вычитка фб2 уже более двух месяцев доступна на устройствах на андроид в alreader. Извините, если для кого-то это не новость.

Аватар пользователя s_Sergius

Alan написал:
на всякий случай. Вычитка фб2 уже более двух месяцев доступна на устройствах на андроид в alreader. Извините, если для кого-то это не новость.

Это радует! Весьма и даже зело.

Alan написал:
на всякий случай. Вычитка фб2 уже более двух месяцев доступна на устройствах на андроид в alreader. Извините, если для кого-то это не новость.

Спасибо, Алан. Это стало основным аргументом для покупки устройства на андроиде.

И вообще - спасибо.

Страницы

X