Текстовые Форматы для Электронных книг

Текстовые Форматы для Электронных книг.rar
Закачек 3866
Средняя скорость 3039 Kb/s

Текстовые Форматы для Электронных книг

Устройства для чтения электронных книг (так называемые ридеры) уже давно превратились из чего-то очень экзотического в такое же привычное бытовое устройство, как и смартфон. Пользователи очень быстро поняли, в чем прелесть ридеров: в них можно закачать сотни (если не тысячи) книг в электронном виде, глаза при чтении не портятся (электронные чернила не светятся), можно настраивать любые параметры текста, включая гарнитуру шрифта и его размер, книга сама запоминает страницу, на которой вы остановились, ну и так далее — перечислять всякие удобства по сравнению с использованием бумажных книг можно очень долго.

Однако у пользователей (особенно начинающих) есть при этом одна проблема: по Сети книги гуляют в различных форматах, коих немало: FB2, EPUB, MOBI, PDF, RTF, TXT и так далее.

Хорошо еще, когда на сайте предлагают на выбор разные форматы — например, на сайте Litres.ru, где этот выбор очень широк.


Виды форматов

Однако для начинающих пользователей все эти EPUB, FB2 и прочие DjVu — темный лес, поэтому давайте разберемся, что они собой представляют, чем отличаются и в каких устройствах используются.

Итак, форматы электронных книг (документов).

1. FB2 (FictionBook) — формат (стандарт), разработанный Дмитрием Грибовым и группой энтузиастов. Отлично подходит для создания структурированных книг, занимает небольшой объем, отлично архивируется, хорошо конвертируется в другие форматы. Представляет собой XML-файл, структурно похожий на письмо электронной почты.

Главный недостаток — так как это фактически российская разработка, в мире этот формат совершенно неизвестен и почти не поддерживается ни одним из брендовых ридеров — Sony, Amazon, Barnes&Noble, Kobo.

На «Литресе» написано, что FB2 «поддерживается всеми российскими ридерами», но это не совсем точно. FB2 поддерживается почти всеми китайскими ридерами с украинским или российским программным обеспечением. Также FB2 может поддерживаться и известными западными ридерами (например, Sony), в которые установлена специальная российская прошивка. (Ну и недавно для последнего ридера Sony PRS-T1 вышла официальная прошивка, поддерживающая FB2.)

2. EPUB (Electronic PUBlishing) — наиболее распространенный в мире (и уже очень распространенный в России) формат электронных книг. По структуре он похож на веб-сайт, упакованный в архив, и если FB2 может распространяться как в раскрытом виде, так и в архиве ZIP (многие ридеры умеют читать FB2 в ZIP), то EPUB — это по определению книга, упакованная архиватором.

EPUB поддерживается практически любыми ридерами — как западными, так и китайскими (российско-украинскими). Поэтому это наиболее предпочтительный формат. (За редкими исключениями.)

3. MOBI — специализированный формат, созданный специально для ридера Amazon Kindle и, соответственно, поддерживаемый только этим ридером. Причем Kindle никакие другие форматы электронных книг (кроме PDF и TXT, но это разговор особый) не поддерживает.

4. TXT — обычный формат текстового документа. Поддерживается всеми ридерами, но читать книги в TXT — это для законченных мазохистов. Ни разметки, ни нормальных переносов, ни выравнивания по формату, но зато есть обрывы строк и прочие прелести. В топку!

5. PDF (Adobe Portable Document Format) — один из наиболее распространенных форматов электронных документов (как правило, не книг). PDF не особенно удобно читать на ридерах, кроме того, он очень громоздкий, поэтому в PDF для ридеров, как правило, записывают только документы со всякими формулами, иллюстрациями и прочим.

6. LRF — специальный формат для электронных книг от Sony. Однако уже практически вытеснен форматом EPUB, который Sony поддерживает.

7. DjVu (произносится «дежавю́») — формат для хранения плотно сжатых отсканированных документов — например, старых книг. В ридерах используется очень редко, потому что читать отсканированные книги на ридере почти невозможно из-за плохого качество отображения и маленького размера экрана.

8. RTF (Rich Text Format) — универсальный формат для хранения текстовых документов. В ридерах используется очень редко — так, для совместимости.

9. DOC — формат документов Microsoft Office. Некоторые ридеры его поддерживают, но читать документы на ридере обычно мало кому нужно. Вот как-то не для того они сделаны. Правда, в DOC по Сети до сих пор гуляют некоторые книги, но уж проще их переконвертировать в тот же EPUB.

Существуют и всякие другие форматы, однако этим можно не забивать себе голову — вряд ли они вообще когда-нибудь пригодятся.

Большинству пользователей, за редкими исключениями, обычно вполне достаточно формата EPUB. Его поддерживают почти все ридеры (кроме Kindle), книги в этом формате имеют небольшой размер, хорошую структуру, позволяют включать оглавление, иллюстрации и так далее.

Многие онлайновые библиотеки хранят книги в этом формате, также в торрентах можно найти огромные коллекции книг формата EPUB.

Какие выводы? EPUB — ваш выбор, будь то у вас западный ридер (Sony, Barnes&Noble, Kobo) или китайско-российско-украинский.

А вот для Kindle нужно будет искать книги в формате MOBI или, что намного проще, просто переконвертировать тот же EPUB или FB2 в этот формат. Подобная процедура производится легко и быстро с помощью специальной программы. Как это делается — рассмотрим в отдельной статье.

Primary menu

Post navigation

Практически все люди, которые спрашивают у меня совета по выбору того или иного устройства для чтения, задают вопросы и о форматах электронных книг — какой лучше и почему. В этой статье я отвечу на эти вопросы очень подробно; рассмотрю как форматы для чтения художественной литературы, так и форматы для чтения литературы технической, научной и учебной.

Художественная литература

Существуют следующие форматы, в которых можно встретить художественную литературу в интернете: TXT, RTF, FB2, EPUB, MOBI, DOC, PDF, DJVU. Сразу скажу, что лучше покупать/скачивать книги в EPUB, FB2 или MOBI. Именно эти форматы наиболее приспособлены для чтения художественной литературы.

Форматы PDF и DJVU слишком тяжелы и неудобны; зачастую текст в них является фактически картинкой, то есть масштабировать можно только страницу целиком, но не размер собственно шрифта. На устройствах для чтения (ридерах) книги в PDF и DJVU отображаются подчас не очень хорошо: буковки могут быть очень маленькими; читать текст неудобно.

Форматы TXT и RTF лишены подобных недостатков, но имеют другие минусы: текст в TXT вообще нельзя отформатировать, то есть заголовки, эпиграфы, цитаты выделяться не будут никак; более того, в TXT не поддерживаются обложки, картинки и таблицы. Это очень убогий, простейший формат. В RTF, конечно, возможности форматирования богаче, но и тут есть недочеты: не поддерживаются автоматически собираемое оглавление и сноски. Помимо этого, файлы RTF обычно весят довольно много, а некоторые устройства для чтения их не всегда корректно отображают.

Формат DOC (и его разновидность DOCX) отлично подходит для сложных документов, но для художественной литературы не годится: он слишком громоздок, сложен; документы DOC часто на разных устройствах отображаются по-разному.

Совсем другое дело — тройка специализированных форматов, заточенных именно под художественную литературу: EPUB, MOBI, FB2 (и его разновидность FB2.ZIP). Данные форматы основаны на так называемой «плавающей верстке», которая позволяет менять размер, гарнитуру шрифта, величину межстрочного интервала и ширину полей. При этом данные форматы поддерживают картинки, таблицы, автособираемое оглавление, сноски и многие другие вещи. Читать книги в FB2/FB2.ZIP, EPUB, MOBI действительно приятно и комфортно.

Разумеется, есть определенные различия между данными форматами, но для новичков они несущественны. Хотя стоит отметить, что в русскоязычном интернете больше всего книг в FB2, в EPUB — уже меньше, а в MOBI — еще меньше.

Конечный выбор формата также зависит от вашего устройства для чтения: с каким-то форматом оно может работать лучше, с каким-то хуже. Тут уж надо поэкспериментировать. Кроме того, встречаются устройства, которые поддерживают только один какой-нибудь формат из указанной тройки. Например, Amazon Kindle читает только MOBI, а B&N Nook — только EPUB.

Подробнее о формате FB2 можете почитать тут, о EPUB — тут, о MOBI — тут.

Научная, техническая и учебная литература

Здесь уже все сложнее: такого рода литература обычно распространяется в форматах PDF, DJVU, DOC (DOCX), каждый из которых, как я отметил ранее, имеет определенные недостатки. Подчас всё еще осложняется тем, что некоторые книги доступны только в одном формате, а подчас — и только в одной версии.

Формат DOC, в принципе, не такой уж и плохой — в сравнении с PDF/DJVU. На компьютере читать в нем книги более или менее комфортно. Хуже дело с устройствами для чтениями: некоторые ридеры отображают его практически как голый текст, исключая ряд иллюстраций, таблицы, формулы и прочее. Другие отображают скорее как картинку: элементы оформления показываются, но нельзя менять размер и гарнитуру шрифта, что на маленьком экране подчас превращается в катастрофу.

PDF. Есть три варианта этого формата: текстовый, графический («картиночный») и графический («картиночный») с OCR-слоем. Первый вариант наиболее предпочтителен: он может содержать все элементы форматирования, а текст остается масштабируемым. В случае же с графическим PDF текст является просто картинкой, которую можно увеличивать только целиком; размер шрифта изменению не подлежит. На устройствах с маленькими экранами графические PDF читать поэтому очень затруднительно.

Иногда на страницы графических PDF накладывается OCR-слой при помощи программы распознавания текста. В книге PDF с OCR-слоем можно проводить поиск, использовать словарь. Это вариант неплохой. Но, опять же, не все устройства для чтения этот OCR-слой «видят». Да и увеличить размер шрифта он не позволяет. Поэтому OCR-слой часто оказывается бесполезным.

Формат DJVU в целом напоминает графический PDF: обычно это просто набор сканов или фотографий бумажной книги. Качество этих сканов/фото может быть просто ужасным, а может быть и вполне приличным. Иногда на сканы/фото накладывается OCR-слой при помощи программы распознавания текста. В книге DJVU с OCR-слоем можно проводить поиск, использовать словарь. Это вариант неплохой. Но, опять же, не все устройства для чтения этот OCR-слой «видят», да и размер шрифта он увеличить не позволит. Поэтому частенько OCR-слой бывает практически бесполезен.

Подведем итог: наиболее предпочтительным форматом для чтения научной/технической/учебной литературы является текстовый PDF, на второе место я бы поставил DOC, на третье — графический PDF и DJVU с OCR-слоем. Последнее место занимают картиночные PDF и DJVU без OCR-слоя.

Документы, таблицы и презентации

Большая часть документов, таблиц и презентаций распространяется в форматах MS Office: DOC/DOCX, XLS/XLSX, PPT/PPTX. Это форматы очень функциональные, но, к сожалению, довольно «громоздкие» и весьма «закрытые» (иными словами, сторонним разработичкам довольно сложно создать программу для чтения файлов в данных форматах). Поэтому некоторые устройства их не поддерживают. Приходится переводить документы в PDF.

Перевести документ/таблицу/презентацию в PDF очень несложно: это позволяет сделать любой приличный текстовый/табличный редактор. Помимо этого, можно воспользоваться каким-нибудь конвертером: их список вы можете найти на этой странице.

Если документ простой, и главное в нем — текст, то лучше его сконвертировать не в PDF, а в FB2 — так он будет читаться на ридере с большим комфортом. Список соответствующих конвертеров смотрите тут.

Автор: Дмитрий Васфилов. При копировании и/или перепечатке указывайте имя автора и ссылку на оригинал.

Блог редактора

Ранее мы писали о том, как выбрать ридер, устройство для чтения электронных книг, прочесть этот пост вы можете, пройдя по ссылке. Сегодня поговорим о форматах.

Любящий книги человек, стремится читать везде. Бумажную книгу носить не всегда удобно, а смартфон есть почти у каждого. Именно это и позволяет электронным книгам (книгам в электронном формате) приобретать все большую популярность. Иметь при себе электронные книги проще, чем носить бумажные тома.

В современном мире разбираться в форматах важно не только читателю, но и писателю. Если же вы пишите, то в ваших интересах сделать ваше творчество максимально удобным и доступным для потенциальных читателей. Конечно можно просто выкладывать произведения в интернет, но в идеале нужно прикладывать к ним файловые версии или ссылку на, например, Яндекс.Диск, чтобы люди смогли скачать ваше творение и познакомиться с ним без доступа в сеть.

Всегда существует опасность, что книга в электронном формате не откроется на ридере или смартфоне. Чтобы свести этот риск к минимуму, мы написали этот пост. Давайте разберемся, какие бывают форматы электронных книг и чем они отличаются.

Форматы

Наиболее распространенные форматы электронных книг это: FB2, EPUB, MOBI, PDF, RTF, TXT, DOC/DOCX и DjVu. Пишутся книги, как правило в Word и им автоматически присваивается формат DOC/DOCX и в блокноте — TXT. Можно выкладывать в сеть свои произведения прямо в них, но, к сожалению, DOC/DOCX не поддерживаются всеми ридерами и смартфонами, а в TXT читать книги очень неудобно. Поэтому если вы решили выложить в сеть файл, позаботьтесь о его конвертации. В какой же формат преобразовывать свой шедевр? Читайте дальше и выбирайте.

FB2 (FictionBook)

Плюсы. Самый распространенных форматов в рунете. В нем удобно структурировать документ большого объема, делить на главы, добавлять иллюстрации и т.п. Файлы FB2 занимают немного места и конвертируются в другие форматы.

Минусы. FB2 — придуманный в России формат. Поэтому его нельзя назвать известным всему миру. Открывается только на устройствах с русской прошивкой. Если вы хотите продавать свои тексты на Amazon или Itunes, то FB2 для этого не подходит.

Кстати, создатель FB2 давно уже обещал выпустить FB3, но… тишина. Судя по всему, развития этот формат не получит.

PDF (Adobe Portable Document Format)

Плюсы. Формат используются для хранения сканированных книг. Также в этот формат можно перевести текст из других форматов. В PDF можно создавать красивые книги. На каждом новом компьютере, как правило, уже установлена программа для просмотра файлов PDF. Любой просмотрщик отображает файл PDF именно с теми шрифтами, с которыми он был создан. Даже если данные шрифты не установлены на устройстве. Ведь по сути это фотография. Сейчас существует большое количество бесплатных программ, позволяющих открывать документ PDF на ПК, а также на мобильных платформах.

Минусы. Файлы PDF получаются «тяжелыми».

DjVu («дежавю́»)

Технология сжатия изображений, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочего, где обилие формул, схем, рисунков и рукописных символов делает трудоемким их полноценное распознавание.

Плюсы. Как и PDF, DjVu служит для хранения сканов, но лучше сжимает файлы, благодаря чему они меньше «весят». DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать навигацию в DjVu-книгах.

Минусы. В отличии от PDF для чтения этого формата требуется установка дополнительного программного обеспечения.

DOC/DOCX и TXT

Это форматы текстовых редакторов, в них можно не только читать, но и создавать и править документы.

Плюсы. TXT открывается на любом ридере, он открывается даже на игровых консолях. DOC/DOCX известные всем форматы Microsoft Word.

Минусы. Читать книги в TXT очень неудобно, в нем отсутствует форматирование текста (выравнивание по ширине, деление на главы и т.п.). Также в ТХТ нельзя вставить иллюстрации. DOC/DOCX поддерживается малым количеством устройств для чтения.

RTF (Rich Text Format)

Плюсы. Компактный формат для хранения текстовых файлов. От DOC отличается тем, что файлы в RTF меньше «весят».

Минусы. Те же, что у DOC.

MOBI (Mobipocket eBook)

Формат для семейства ридеров Amazon Kindle.

Плюсы. Можно использовать защиту авторских прав от несанкционированного копирования или просмотра. Можно открывать на ПК (через специальную программу), а также на мобильных платформах: BlackBerry, PalmOS, Symbian и Windows Mobile.

Минусы. Большое количество ограничений на форматирование, в первую очередь касательно отступов текста, а также вставленных в текст изображений и таблиц.

LRF (Sony Portable Reader File)

Плюсы. LRF специальный формат книг от Sony. На устройствах этого производителя проблем с чтением не будет. Есть возможность вставки изображений и создания оглавления, удобно форматируется текст.

Минусы. Книги в этом формате и просмотрщики под него встречаются редко.

EPUB (Electronic PUBlishing)

Плюсы. Самый распространенный в мире формат электронных книг. Позволяет создать структурированный текст с иллюстрациями. Формат компактный и не требует дополнительной архивации.

Минусы. Может не читаться на Amazon Kindle.

Как видно, каждый из форматов имеет свои преимущества и недостатки. Например, наиболее «читаемым» форматом для электронных книг будет TXT, но читать в таком формате очень неудобно.

Наиболее распространенным и удобным форматом для чтения электронных книг, является EPUB и FB2. Если вы задумались в каком формате выкладывать свои произведения, не ленитесь и сделайте несколько файлов в разных форматах. К примеру: EPUB, DOC и FB2. Тем более, что, если читатель решит прочесть ваше произведение, а на его устройстве не поддерживаются эти форматы, он сможет переконвертировать их в нужный ему.


Статьи по теме