Редакционно-издательские системы



Лекция по дисциплине «Информационные технологии»

Тема 3. Информационные технологии для работы с текстами и текстовыми документами

План лекции

1. Определения

2. Текстовые редакторы и текстовые процессоры

3. Редакционно-издательские системы

4. Информационные технологии полнотекстового поиска

5. Информационные технологии распознавания текста

6. Информационные технологии конверсии форм представления текста

 

Эта лекция посвящена информационным технологиям, предназначенным для работы с текстами и текстовыми документами. Даются необходимые определения, приводятся классификации и описания как собственно информационных технологий, так и примеров информационных систем, представляющих собой технологические среды, в которых реализуются эти технологии.

Текстовые редакторы и текстовые процессоры

Текстовый редактор – исторически самая «древняя» технологическая среда реализации информационной технологии редактирования текста. Первые интерактивные текстовые редакторы появились даже ранее изобретения компьютерной мыши. Это объясняется, с одной стороны, крайней необходимостью редактирования всевозможных текстов (в первую очередь – текстов программных модулей на том или ином языке программирования или описания данных), и с другой стороны – сравнительной простотой реализации.

Текст представляет собой последовательность символов, каждый из которых является элементом заранее фиксированной конечной совокупности, которая называется алфавитом. Алфавит может быть весьма коротким (например, в азбуке Морзе используются всего лишь четыре символа), или длинным (китайская письменность насчитывает несколько тысяч иероглифов), но эта совокупность всегда конечна. В разговорных языках у каждого символа имеется графема и фонема, в некоторых алфавитах (иероглифических) символу может быть сопоставлена некоторая семантика – смысловое содержание.

Графема - обобщенное графическое изображение, представляющее собой тот или иной символ алфавита в графическом представлении текста. Допускаются вариации графемы в некоторых пределах, но они не должны делать символ нераспознаваемым.

Фонема – звук или сочетание звуков, обозначающее символ в устной речи. Количество звуков в устной речи не обязательно совпадает с количеством символов алфавита – такие случаи, скорее, исключение.

В то же время, в алфавите могут встречаться символы, не имеющие графемы и/или фонемы (например, пробел или признак конца абзаца). Как правило, назначение таких символов имеет служебный характер – разбиение текста на структурные единицы, указания о его форматировании и т.д.). Служебные символы чаще встречаются в алфавитах, использующихся в языках, не имеющих устной формы (например, в алфавите компьютерных символов). В этом случае им сопоставляются графемы, но не фонемы (символ конца абзаца, перевода строки, табуляции и т.д.). В некоторых языках, не имеющих письменности, символы не имеют графем. Строго говоря, в таких языках алфавит в формальном понимании этого термина отсутствует.

Редактирование – это выполнение над текстом операций, меняющих состав или порядок символов текста. Строго говоря, к таким операциям относятся всего только три: вставка символа в определённое место текста, удаление выделенного символа текста, и замена выделенного символа текста (при этом последняя операция сводится к последовательному выполнению двух предыдущих). Функционально и по интерфейсу пользователя текстовые редакторы практически не меняются в течение последних десятилетий. В большинство программных средств, в которых требуется время от времени редактировать тексты, встроены собственные текстовые редакторы (как, например, в Corel DRAW), а встроенный в операционную систему Windows текстовый редактор Notepad остаётся практически неизменным более четверти века. Для текстовых редакторов характерно использование для каждого из символов алфавита только одного варианта графемы.

Текстовый процессор реализует больший объём операций, включая в сферу своих действий не только тексты, но и текстовые документы. Как правило, большая часть пользовательских функций текстовых процессоров связана не с редактированием текстов, а с их форматированием. Текстовый документ отличается от текста тем, что в нём имеется возможность управлять представлением текста в составе текстового документа, например, разбивать его на строки, абзацы, страницы, произвольно размещать его на площади носителя, использовать различные текстовые эффекты, вставлять в документ нетекстовые фрагменты.

Форматирование – это выполнение над текстовым документом операций, не изменяющих ни состав, ни порядок следования символов текста, но меняющих значения атрибутов, управляющих их отображением в составе текстового документа. Количество операций форматирования превышает количество операций редактирования в десятки раз.

В современных текстовых процессорах класса MS Word предусмотрено несколько категорий операций форматирования, относящихся к различным структурным уровням текста, среди которых различают символы, слова, предложения, абзацы и разделы.

К форматированию символов относят операции изменения атрибутов гарнитуры

Гарнитурой называется рисунок символов алфавит, разработанный художником по шрифтам. Каждый символ гарнитуры имеет свой номер, поэтому тексты в представлении в виде компьютерных символов представляют собой фактически последовательность чисел. В разных гарнитурах одному и тому же номеру соответствуют различные варианты графемы символа. Перед использованием гарнитуру следует установить в операционной системе.

Кеглем называется высота символов текста при отображении на носителе. Измеряется в пунктах – традиционных единицах, 1 пункт примерно равен 0,2 мм.

Начертанием называется модификация рисунка символа за счет варьирования толщины штрихов гарнитуры.

Подчёркиванием называется, как ни странно, не только проведение черты под текстом, но и зачёркивание текста, и вывод линий над строкой.

Регистром символа называется вариант отображения его графемы – для строчного или прописного варианта. В компьютерном кодировании они являются различными символами, но управление регистром относится не к редактированию, а к форматированию символов. Чаще всего используются три режима управления регистром: без преобразования (None), капитель (Small CAPS) и капитализация (All CAPS). При включении преобразования капители все строчные символы имеют обычную высоту, но по рисунку совпадают с соответствующими прописными символами. Преобразование капитализации отображает вместо строчных символов их прописные аналоги в высоту прописного символа. Выбор любого из вариантов не изменяет символов в самом тексте — меняется только способ их отображения.

Режим индекса. Эта операция форматирования управляет преобразованием символов при отображении в верхние (надстрочные) или нижние (подстрочные) индексы.

Смещение символов. В эту группу операций входят: смещение по горизонтали (Horizontal), смещение по вертикали (Vertical) и смещение угловое (Rotation). Значения этих атрибутов задают величины смещения символов при отображении текста относительно их «штатного» положения. На следующем рисунке в верхней строке для некоторых символов изменено смещение по вертикали, в средней — по горизонтали, в нижней — для одной буквы введены дополнительные горизонтальное и вертикальное смещение и задан поворот на 160°.

Выравнивание (выключка). Эта операция управляет размещением слов в пределах строк текста. Область выключки называется блоком текста, и её размер может задаваться по-разному (чаще всего, это делается с помощью указания размеров страницы текстового документа и задания ширины полей на странице. Выключка может выполняться в одном из шести вариантов:

None (отсутствует) — слова выравниваются по левой границе блока, но задавая отрицательные значения смещения по горизонтали, можно вывести отдельные символы за нее влево;

Left (по левому краю) — слова выравниваются по левой границе блока, если при этом отдельные символы смещаются влево, то вместо их вывода за левую границу блока происходит смещение всей остальной строки вправо;

Center (по центру) — слова выравниваются так, чтобы середины всех строк блока совпадали с воображаемой вертикальной линией, расположенной посередине между его левой и правой границами;

Right (по правому краю) — слова выравниваются по правой границе блока, если при этом отдельные символы смещаются вправо, то вместо их вывода за правую границу блока происходит смещение всей остальной строки влево;

Full (по ширине) — слова выравниваются так, чтобы первый символ первого слова каждой строки совмещался с левой границей блока, а последний символ последнего слова строки — с правой границей блока (исключение делается только для случая, когда в последней строке остается единственное слово (или перенесенная с предыдущей строки часть слова) — оно выравнивается по левому краю);

Force Full (полное по ширине) — то же, что по ширине, но без каких-либо исключений.

Интерлиньяж (line space). Эта операция форматирования управляет расстоянием между смежными строками блока текста. Численно интерлиньяж равен расстоянию между базовыми линиями смежных строк текста. По умолчанию эта величина указывается в процентах от высоты символов выбранного шрифта. Поскольку при разработке гарнитуры в высоту прописных символов текста включают и свободное пространство над ними, интерлиньяж 100 % означает, что расстояние между строками текста соответствует замыслу художника, разработавшего гарнитуру. В полиграфии для мелких кеглей это расстояние чаще всего увеличивают до 120 %, а для крупных иногда даже уменьшают.

Интервалы межсловные и межсимвольные (space). В некоторых текстовых процессорах и редакционно-издательских системах имеется возможность принудительно изменять предусмотренные рисунком гарнитуры расстояния между смежными символами (Character) и между смежными словами (Word). Межсимвольное расстояние измеряется в процентах от ширины символа пробела использованного шрифта, и по умолчанию равно нулю, то есть расстояния между символами в словах соответствуют предусмотренным в гарнитуре. Увеличение межсимвольного расстояния раздвигает символы, уменьшение — сближает. Такая процедура в применении к тексту в целом называется трекингом, применительно к выделенной части текста - кернингом. Межсловное расстояние также измеряется в процентах от ширины пробела для данного шрифта, но по умолчанию равна 100 %. Следует помнить, что при выравнивании текста по обоим краям блока ширина пробела переменная, и, естественно, не может соблюдаться точно в соответствии с величиной межсловного интервала.

В большинстве текстовых процессоров предусмотрены возможности для совместного размещения в пределах одного документа нескольких текстов. В этом случае тексты размещаются не в виде блоков (см. выше), а внутри текстовых рамок. В роли текстовой рамки чаще всего служат прямоугольники, хотя это могут быть и другие геометрические фигуры. Текстовые рамки могут связываться в цепочки, отдельные элементы которых могут располагаться как на одной, так и на различных страницах документа.

При редактировании текста в цепочке связанных рамок он «перетекает» из одной рамки в другую, заново разбиваясь на строки.

Рамка текста не является текстовым объектом – это объект графический. Его взаимодействие с текстами, размещёнными в блоках и с другими текстовыми рамками определяется значением атрибута обтекания текстом, который может принимать различные значения, как это представлено на рисунке ниже.

Для текстов, помещённых в рамки, сохраняется возможность выполнения операций форматирования символов и абзацев, рассмотренные выше.

Размещением блоков и рамок текста, а также нетекстовых объектов на носителе текстового документа управляют операции форматирования абзацев, страниц и разделов.

Абзацем называется последовательность текстовых символов, завершающаяся специальным символом конца абзаца, включая и этот символ. Текстовый документ всегда включает в себя хотя бы один абзац текста, даже если в этом абзаце нет ни одного символа, кроме символа конца абзаца. Для абзацев определены операции выравнивания и регулировки интерлиньяжа, описанные выше, кернинг и задание отступов – фиксированных расстояний концов строк от границ области размещения абзаца.

Разделом называется часть текстового документа, завершающаяся признаком конца раздела – специальным символом. В любом текстовом документе имеется, по крайней мере, один раздел. Операции форматирования раздела включают в себя операции форматирования страниц, колонтитулов и колонок.

Страницей называется часть текстового документа, размещаемая на одном листе носителя (при выводе на печать или экран). Для страницы в текстовых процессорах предусмотрены операции, определяющие размеры листа бумаги, его ориентацию и размеры полей. Эти параметры не могут меняться в пределах одного раздела текстового документа.

В пределах раздела выполняются также операции форматирования колонок текста и колонтитулов. Колонкой текста называется блок специального вида, имеющий фиксированное расположение в границах раздела – в виде вертикально ориентированного прямоугольника. В зависимости от варианта форматирования колонок на странице их может быть одна или несколько, можно управлять их шириной и шириной просветов между ними, а также наличием средников – разделяющих колонки линий.

Колонтитулом называется часть текстового документа, повторяющаяся на всех страницах раздела в определенном месте. Содержание колонтитулов может быть как постоянным (например, название документа, которое выводится в верхней части страницы), так и изменяющимся автоматически например, номер страницы, который выводится в середине нижнего поля страницы.

В большинстве текстовых процессоров описанные выше операции редактирования и форматирования реализованы с помощью тех или иных элементов пользовательского интерфейса. В самом обобщённом виде процесс создания текстового документа можно представить в виде следующих шагов:

1. Ввод и редактирование текста

2. Форматирование текста на уровне абзацев и разделов

3. Определение структуры текстового документа и форматирование страниц и разделов

4. Вывод документа на печать или его публикация электронным способом (например, на файл-сервере, странице WWW или ином информационном ресурсе).

Наиболее распространённым текстовым процессором на сегодня следует признать MS Word, а текстовым редактором - Notepad (Блокнот).

Редакционно-издательские системы

Редакционно-издательские системы не являются в строгом понимании технологической средой, в которой обрабатываются только тексты – они решают задачи технологического процесса подготовки полиграфической или электронной публикации. Однако большая часть выполняемых ими операции осуществляется именно над текстами. Редакционно-издательскую систему можно рассматривать как гибрид мощного текстового процессора, системы компьютерной графики и системы технологической подготовки полиграфического процесса.

В таких системах уделяется более пристальное внимание, чем в текстовых процессорах, автоматизации оформления аппарата издания – сбору оглавления, размещению колонтитулов и прочих повторяющихся элементов на страницах многостраничного документа, сбору оглавления, предметного указателя и т.п.

Основу технологического процесса работы с редакционно-издательской системой составляет вёрстка – размещение текстовых и нетекстовых объектов, составляющих издание, на отдельных страницах. Для сборки изданий широко применяется информационная технология портативного представления данных Portable Data Format (PDF).

На сегодня наиболее известными и распространёнными редакционно-издательскими системами являются Adobe InDesign, Microsoft Publisher и Corel Draw.


Дата добавления: 2021-06-02; просмотров: 130; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!