Редакционно-издательские системы
Лекция по дисциплине «Информационные технологии»
Тема 3. Информационные технологии для работы с текстами и текстовыми документами
План лекции
1. Определения
2. Текстовые редакторы и текстовые процессоры
3. Редакционно-издательские системы
4. Информационные технологии полнотекстового поиска
5. Информационные технологии распознавания текста
6. Информационные технологии конверсии форм представления текста
Эта лекция посвящена информационным технологиям, предназначенным для работы с текстами и текстовыми документами. Даются необходимые определения, приводятся классификации и описания как собственно информационных технологий, так и примеров информационных систем, представляющих собой технологические среды, в которых реализуются эти технологии.
Текстовые редакторы и текстовые процессоры
Текстовый редактор – исторически самая «древняя» технологическая среда реализации информационной технологии редактирования текста. Первые интерактивные текстовые редакторы появились даже ранее изобретения компьютерной мыши. Это объясняется, с одной стороны, крайней необходимостью редактирования всевозможных текстов (в первую очередь – текстов программных модулей на том или ином языке программирования или описания данных), и с другой стороны – сравнительной простотой реализации.
Текст представляет собой последовательность символов, каждый из которых является элементом заранее фиксированной конечной совокупности, которая называется алфавитом. Алфавит может быть весьма коротким (например, в азбуке Морзе используются всего лишь четыре символа), или длинным (китайская письменность насчитывает несколько тысяч иероглифов), но эта совокупность всегда конечна. В разговорных языках у каждого символа имеется графема и фонема, в некоторых алфавитах (иероглифических) символу может быть сопоставлена некоторая семантика – смысловое содержание.
|
|
Графема - обобщенное графическое изображение, представляющее собой тот или иной символ алфавита в графическом представлении текста. Допускаются вариации графемы в некоторых пределах, но они не должны делать символ нераспознаваемым.
Фонема – звук или сочетание звуков, обозначающее символ в устной речи. Количество звуков в устной речи не обязательно совпадает с количеством символов алфавита – такие случаи, скорее, исключение.
В то же время, в алфавите могут встречаться символы, не имеющие графемы и/или фонемы (например, пробел или признак конца абзаца). Как правило, назначение таких символов имеет служебный характер – разбиение текста на структурные единицы, указания о его форматировании и т.д.). Служебные символы чаще встречаются в алфавитах, использующихся в языках, не имеющих устной формы (например, в алфавите компьютерных символов). В этом случае им сопоставляются графемы, но не фонемы (символ конца абзаца, перевода строки, табуляции и т.д.). В некоторых языках, не имеющих письменности, символы не имеют графем. Строго говоря, в таких языках алфавит в формальном понимании этого термина отсутствует.
|
|
Редактирование – это выполнение над текстом операций, меняющих состав или порядок символов текста. Строго говоря, к таким операциям относятся всего только три: вставка символа в определённое место текста, удаление выделенного символа текста, и замена выделенного символа текста (при этом последняя операция сводится к последовательному выполнению двух предыдущих). Функционально и по интерфейсу пользователя текстовые редакторы практически не меняются в течение последних десятилетий. В большинство программных средств, в которых требуется время от времени редактировать тексты, встроены собственные текстовые редакторы (как, например, в Corel DRAW), а встроенный в операционную систему Windows текстовый редактор Notepad остаётся практически неизменным более четверти века. Для текстовых редакторов характерно использование для каждого из символов алфавита только одного варианта графемы.
|
|
Текстовый процессор реализует больший объём операций, включая в сферу своих действий не только тексты, но и текстовые документы. Как правило, большая часть пользовательских функций текстовых процессоров связана не с редактированием текстов, а с их форматированием. Текстовый документ отличается от текста тем, что в нём имеется возможность управлять представлением текста в составе текстового документа, например, разбивать его на строки, абзацы, страницы, произвольно размещать его на площади носителя, использовать различные текстовые эффекты, вставлять в документ нетекстовые фрагменты.
Форматирование – это выполнение над текстовым документом операций, не изменяющих ни состав, ни порядок следования символов текста, но меняющих значения атрибутов, управляющих их отображением в составе текстового документа. Количество операций форматирования превышает количество операций редактирования в десятки раз.
В современных текстовых процессорах класса MS Word предусмотрено несколько категорий операций форматирования, относящихся к различным структурным уровням текста, среди которых различают символы, слова, предложения, абзацы и разделы.
|
|
К форматированию символов относят операции изменения атрибутов гарнитуры
Гарнитурой называется рисунок символов алфавит, разработанный художником по шрифтам. Каждый символ гарнитуры имеет свой номер, поэтому тексты в представлении в виде компьютерных символов представляют собой фактически последовательность чисел. В разных гарнитурах одному и тому же номеру соответствуют различные варианты графемы символа. Перед использованием гарнитуру следует установить в операционной системе.
Кеглем называется высота символов текста при отображении на носителе. Измеряется в пунктах – традиционных единицах, 1 пункт примерно равен 0,2 мм.
Начертанием называется модификация рисунка символа за счет варьирования толщины штрихов гарнитуры.
Подчёркиванием называется, как ни странно, не только проведение черты под текстом, но и зачёркивание текста, и вывод линий над строкой.
Регистром символа называется вариант отображения его графемы – для строчного или прописного варианта. В компьютерном кодировании они являются различными символами, но управление регистром относится не к редактированию, а к форматированию символов. Чаще всего используются три режима управления регистром: без преобразования (None), капитель (Small CAPS) и капитализация (All CAPS). При включении преобразования капители все строчные символы имеют обычную высоту, но по рисунку совпадают с соответствующими прописными символами. Преобразование капитализации отображает вместо строчных символов их прописные аналоги в высоту прописного символа. Выбор любого из вариантов не изменяет символов в самом тексте — меняется только способ их отображения.
Режим индекса. Эта операция форматирования управляет преобразованием символов при отображении в верхние (надстрочные) или нижние (подстрочные) индексы.
Смещение символов. В эту группу операций входят: смещение по горизонтали (Horizontal), смещение по вертикали (Vertical) и смещение угловое (Rotation). Значения этих атрибутов задают величины смещения символов при отображении текста относительно их «штатного» положения. На следующем рисунке в верхней строке для некоторых символов изменено смещение по вертикали, в средней — по горизонтали, в нижней — для одной буквы введены дополнительные горизонтальное и вертикальное смещение и задан поворот на 160°.
Выравнивание (выключка). Эта операция управляет размещением слов в пределах строк текста. Область выключки называется блоком текста, и её размер может задаваться по-разному (чаще всего, это делается с помощью указания размеров страницы текстового документа и задания ширины полей на странице. Выключка может выполняться в одном из шести вариантов:
None (отсутствует) — слова выравниваются по левой границе блока, но задавая отрицательные значения смещения по горизонтали, можно вывести отдельные символы за нее влево;
Left (по левому краю) — слова выравниваются по левой границе блока, если при этом отдельные символы смещаются влево, то вместо их вывода за левую границу блока происходит смещение всей остальной строки вправо;
Center (по центру) — слова выравниваются так, чтобы середины всех строк блока совпадали с воображаемой вертикальной линией, расположенной посередине между его левой и правой границами;
Right (по правому краю) — слова выравниваются по правой границе блока, если при этом отдельные символы смещаются вправо, то вместо их вывода за правую границу блока происходит смещение всей остальной строки влево;
Full (по ширине) — слова выравниваются так, чтобы первый символ первого слова каждой строки совмещался с левой границей блока, а последний символ последнего слова строки — с правой границей блока (исключение делается только для случая, когда в последней строке остается единственное слово (или перенесенная с предыдущей строки часть слова) — оно выравнивается по левому краю);
Force Full (полное по ширине) — то же, что по ширине, но без каких-либо исключений.
Интерлиньяж (line space). Эта операция форматирования управляет расстоянием между смежными строками блока текста. Численно интерлиньяж равен расстоянию между базовыми линиями смежных строк текста. По умолчанию эта величина указывается в процентах от высоты символов выбранного шрифта. Поскольку при разработке гарнитуры в высоту прописных символов текста включают и свободное пространство над ними, интерлиньяж 100 % означает, что расстояние между строками текста соответствует замыслу художника, разработавшего гарнитуру. В полиграфии для мелких кеглей это расстояние чаще всего увеличивают до 120 %, а для крупных иногда даже уменьшают.
Интервалы межсловные и межсимвольные (space). В некоторых текстовых процессорах и редакционно-издательских системах имеется возможность принудительно изменять предусмотренные рисунком гарнитуры расстояния между смежными символами (Character) и между смежными словами (Word). Межсимвольное расстояние измеряется в процентах от ширины символа пробела использованного шрифта, и по умолчанию равно нулю, то есть расстояния между символами в словах соответствуют предусмотренным в гарнитуре. Увеличение межсимвольного расстояния раздвигает символы, уменьшение — сближает. Такая процедура в применении к тексту в целом называется трекингом, применительно к выделенной части текста - кернингом. Межсловное расстояние также измеряется в процентах от ширины пробела для данного шрифта, но по умолчанию равна 100 %. Следует помнить, что при выравнивании текста по обоим краям блока ширина пробела переменная, и, естественно, не может соблюдаться точно в соответствии с величиной межсловного интервала.
В большинстве текстовых процессоров предусмотрены возможности для совместного размещения в пределах одного документа нескольких текстов. В этом случае тексты размещаются не в виде блоков (см. выше), а внутри текстовых рамок. В роли текстовой рамки чаще всего служат прямоугольники, хотя это могут быть и другие геометрические фигуры. Текстовые рамки могут связываться в цепочки, отдельные элементы которых могут располагаться как на одной, так и на различных страницах документа.
При редактировании текста в цепочке связанных рамок он «перетекает» из одной рамки в другую, заново разбиваясь на строки.
Рамка текста не является текстовым объектом – это объект графический. Его взаимодействие с текстами, размещёнными в блоках и с другими текстовыми рамками определяется значением атрибута обтекания текстом, который может принимать различные значения, как это представлено на рисунке ниже.
Для текстов, помещённых в рамки, сохраняется возможность выполнения операций форматирования символов и абзацев, рассмотренные выше.
Размещением блоков и рамок текста, а также нетекстовых объектов на носителе текстового документа управляют операции форматирования абзацев, страниц и разделов.
Абзацем называется последовательность текстовых символов, завершающаяся специальным символом конца абзаца, включая и этот символ. Текстовый документ всегда включает в себя хотя бы один абзац текста, даже если в этом абзаце нет ни одного символа, кроме символа конца абзаца. Для абзацев определены операции выравнивания и регулировки интерлиньяжа, описанные выше, кернинг и задание отступов – фиксированных расстояний концов строк от границ области размещения абзаца.
Разделом называется часть текстового документа, завершающаяся признаком конца раздела – специальным символом. В любом текстовом документе имеется, по крайней мере, один раздел. Операции форматирования раздела включают в себя операции форматирования страниц, колонтитулов и колонок.
Страницей называется часть текстового документа, размещаемая на одном листе носителя (при выводе на печать или экран). Для страницы в текстовых процессорах предусмотрены операции, определяющие размеры листа бумаги, его ориентацию и размеры полей. Эти параметры не могут меняться в пределах одного раздела текстового документа.
В пределах раздела выполняются также операции форматирования колонок текста и колонтитулов. Колонкой текста называется блок специального вида, имеющий фиксированное расположение в границах раздела – в виде вертикально ориентированного прямоугольника. В зависимости от варианта форматирования колонок на странице их может быть одна или несколько, можно управлять их шириной и шириной просветов между ними, а также наличием средников – разделяющих колонки линий.
Колонтитулом называется часть текстового документа, повторяющаяся на всех страницах раздела в определенном месте. Содержание колонтитулов может быть как постоянным (например, название документа, которое выводится в верхней части страницы), так и изменяющимся автоматически например, номер страницы, который выводится в середине нижнего поля страницы.
В большинстве текстовых процессоров описанные выше операции редактирования и форматирования реализованы с помощью тех или иных элементов пользовательского интерфейса. В самом обобщённом виде процесс создания текстового документа можно представить в виде следующих шагов:
1. Ввод и редактирование текста
2. Форматирование текста на уровне абзацев и разделов
3. Определение структуры текстового документа и форматирование страниц и разделов
4. Вывод документа на печать или его публикация электронным способом (например, на файл-сервере, странице WWW или ином информационном ресурсе).
Наиболее распространённым текстовым процессором на сегодня следует признать MS Word, а текстовым редактором - Notepad (Блокнот).
Редакционно-издательские системы
Редакционно-издательские системы не являются в строгом понимании технологической средой, в которой обрабатываются только тексты – они решают задачи технологического процесса подготовки полиграфической или электронной публикации. Однако большая часть выполняемых ими операции осуществляется именно над текстами. Редакционно-издательскую систему можно рассматривать как гибрид мощного текстового процессора, системы компьютерной графики и системы технологической подготовки полиграфического процесса.
В таких системах уделяется более пристальное внимание, чем в текстовых процессорах, автоматизации оформления аппарата издания – сбору оглавления, размещению колонтитулов и прочих повторяющихся элементов на страницах многостраничного документа, сбору оглавления, предметного указателя и т.п.
Основу технологического процесса работы с редакционно-издательской системой составляет вёрстка – размещение текстовых и нетекстовых объектов, составляющих издание, на отдельных страницах. Для сборки изданий широко применяется информационная технология портативного представления данных Portable Data Format (PDF).
На сегодня наиболее известными и распространёнными редакционно-издательскими системами являются Adobe InDesign, Microsoft Publisher и Corel Draw.
Дата добавления: 2021-06-02; просмотров: 130; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!