Гипертекст в помощь лингвисту
Среди текстовых лингвистических процессоров, задачей которых является автоматизированная или полностью автоматическая обработка текстов, различают грамматические, лексические и семантические процессоры. В их задачу входит решение различных проблем обработки текста: автоматический перевод; коррекция орфографии, грамматики и стиля; автоматическая компрессия текстов для автоматического реферирования, индексирования научно-технических и экономических текстов, кодирования и декодирования текстовой информации; порождение и понимание текста, анализ связного текста. Помимо этих традиционных текстовых процессоров все более актуальными становятся гипертекстовые системы.
Скачать:
Вложение | Размер |
---|---|
gipertekst_v_pomoshch_lingvistu.pptx | 1.35 МБ |
Предварительный просмотр:
Подписи к слайдам:
Среди текстовых лингвистических процессоров, задачей которых является автоматизированная или полностью автоматическая обработка текстов, различают грамматические, лексические и семантические процессоры. В их задачу входит решение различных проблем обработки текста: автоматический перевод; коррекция орфографии, грамматики и стиля; автоматическая компрессия текстов для автоматического реферирования, индексирования научно-технических и экономических текстов, кодирования и декодирования текстовой информации; порождение и понимание текста , анализ связного текста. Помимо этих традиционных текстовых процессоров все более актуальными становятся гипертекстовые системы.
В качестве примера отечественных методов разработки гипертекстовых систем можно назвать метод логико-смыслового моделирования, разработанного Р . С. Гиляревским и М.М.Субботиным. Рассматриваются также отечественные исследования в области анализа текста, которые кажутся на первый взгляд не связанными с проблематикой гипертекста , поскольку практически не используются при создании гипертекстовых систем, однако эффективность обработки текста в гипертекстовых системах с различными целями может с их применением возрасти.
В настоящее время гипертекст получил уже достаточно широкое распространение. В учебных заведениях и корпорациях, библиотеках и конторах адвокатов, конструкторских бюро, научных лабораториях и музеях, наконец, в компьютерах индивидуально пишущих и читающих людей.
Проблематика гипертекста включает две резко контрастирующие по содержанию части. С одной стороны, речь идет о форме представления текстового материала, о его нелинейной организации , о его элементах, о характере взаимосвязи между ними, о том, как он осваивается (читается) и как формируется содержание в нелинейной форме. В этом аспекте гипертекст рассматривается в соотнесении с традиционным, «линейным» письменным текстом как новая форма письменной коммуникации, меняющая традиционные понятия «автор и читатель», «чтение и письмо».
Немного из истории создания гипертекста: бывший советник по науке президента США Ф. Рузвельта В.Буш в статье « As we may think », опубликованной в журнале « The Atlantic Monthly » в 1945 году, описал настольный аппарат, который он назвал Ме m ех . Это прибор, в котором человек хранит все свои книги, записи, сообщения, быстродействующий и удобный в обращении. Управляемый с помощью ручек, кнопок и клавиатуры и основанный на технологии микрофильмирования, этот прибор представляет собой механическую модель компьютера как средства воспроизведения и отображения информации. Более того, пользователь мог делать пометки и комментарии на полях гак, словно перед ним была страница книги или журнала. Идея та же, что и в «виртуальном» тексте. Суть замысла заключалась в возможности Ме m ех устанавливать ассоциативные связи между текстами. Автор представлял его как систему, которая работает так же, как работает человеческий мозг.
То, что описал В. Буш, сегодня известно как гипертекст - это слово впервые ввел в обращение Т. Нельсон (США) в 60-х гг. Из объяснения, данного Нельсоном в 1981 году, следует, что он имел в виду непоследовательное письмо, то есть текст, который разветвляется как набор отдельных кусков, объединенных связями, позволяющими читателю выбирать различные пути движения. Несмотря на то, что Т. Нельсон основывался на концепции В. Буша, он предсказал ее актуализацию в новых условиях электронных средств. В гипертексте и гипермедиа (слово, которое он также ввел) он получил основу для нового типа печатных средств, типа, который мог бы изменить способ производства и распространения книг и других текстов.
Понятие гипертекста радикально изменило концептуальный ландшафт, который теперь следует понимать как фундаментально определяемый компьютерными и электронными сетями. Многие полагают, что гипертекст является существенной характеристикой новых средств. Его особенностью является отсутствие централизованности и иерархии. В пространстве гипертекста все объекты обладают равной значимостью и в равной степени доступны пользователю. Центральным персонажем является пользовательчитатель . Итак, гипертекст - это соединение смысловой структуры, структуры внутренних связей некоего содержания и технической среды, технических средств, дающих человеку возможность осваивать структуру смысловых связей, осуществлять переходы между взаимосвязанными элементами.
У гипертекста наиболее общие функции те же, что и у традиционного письменного текста - быть носителем отделенною от индивида, « экстериоризованного », вынесенного во вне словесно выраженного содержания (мыслей, знаний и т.п.).
Гипертекст может нести представленное в нем кем-то содержание для сообщения его, передачи другим людям. Это собственно непосредственно коммуникативная функция. Гипертекст в этой функции предназначен для чтения - такого чтения, при котором постоянно совершаются переходы между элементами, составными частями читаемого материала. Такой гипертекст может предназначаться для многих читателей, может тиражироваться и в этом смысле подобен книге.
Гипертекст может фиксировать содержание и для того, чтобы предъявлять его самому автору (чтобы автор, вновь обратившись к созданному содержанию, мог его изменить, усовершенствовать , развить). В этой функции гипертекст подобен черновику, но в отличие от обычного черновика он фиксирует не только сами по себе мысли, но и их взаимосвязи. Гипертекст может также фиксировать содержание, создаваемое многими авторами в ходе совместной работы. Это - адекватная форма, адекватное средство для соотнесения, представления во взаимосвязи содержания, создаваемого разными людьми, и для рассмотрения его с точки зрения единства, целостности. В этой функции у гипертекста нет прямого аналога.
Говоря об отечественных методах анализа связного текста, следует дать краткое изложение метода сетевого моделирования текста. Данный метод исследования основывается на построении семантических сетей, моделирующих смысловую сторону лексики и текста. Сетевое моделирование текста включает три основные операции: выявление семантических связей между элементами текста , их представление в удобной для дальнейших исследований форме и установление (с использованием этого представления) закономерностей , характеризующих изучаемый объект.
Для гипертекста как ветвящегося (нелинейного) текста характерны следующие признаки: 1. Нелинейность 2. Переходы в нелинейном тексте 3. Структурные элементы гипертекста 4. Система переходов между структурными элементами гипертекста 5. Визуальное представление структуры гипертекста
1. Роль автора гипертекста При создании гипертекста для потенциального читателя создаются возможности перехода между элементами этого гипертекста («линейными» текстами). Сама возможность перехода, то есть предъявления читателю по его вызову соответствующего текста , обеспечивается техническими средствами. Однако между какими именно текстами должны быть переходы - это решает новый, прежде не существовавший персонаж процесса письменной коммуникации - автор гипертекста. Отдельные линейные тексты, между которыми создаются переходы, могут принадлежать разным авторам. Автором всех или некоторых из них может быть и автор гипертекста. Но в общем случае вклад автора гипертекста состоит в указании переходов между текстами, в определении системы этих переходов. Тем самым создается гипертекст как целостное образование .
2. «Беспристрастность» гипертекста Ослабление авторского начала придает гипертексту характер повышенной объективности, беспристрастности. Можно отнести линейный письменный текст эпохи книгопечатания к классу «горячих» средств коммуникации ( hot media ), то есть тех средств, которые подвергают сознание воспринимающего человека активному воздействию. Гипертекст же можно отнести к «холодным» коммуникационным средствам ( cool media ), поскольку он предполагает, что элементы представленного в нем содержания будут восприниматься в различных взаимосвязях , в различных ракурсах, что будет осуществляться сопоставление связанных переходами фрагментов, а сами переходы, вследствие их многообразия, будут подвергаться критическому осмыслению . Другими словами, гипертекст рассчитан на вдумчивое и критическое проникновение в материал, а главное - на индивидуальные , присущие каждому читателю пути освоения этого материала.
3. Читатель гипертекста Из сказанного выше понятно, что и читатель гипертекста сильно отличается от обычного читателя. Чтение гипертекста требует от читателя высокой интеллектуальной активности, дополнительной по отношению к той, которую требует чтение обычного текста. Читатель гипертекста постоянно выбирает маршрут чтения, прокладывает свой собственный путь проникновения в представленное ему содержание. Он сталкивается с ситуацией, когда содержание не выстроено для него заранее в целостной форме, когда постижение материала как целостного зависит от его читательской активности. Он осваивает материал, двигаясь по смысловому пространству гипертекста в разных направлениях, по разным путям, стремясь выйти на наиболее содержательные пути.
4. Гипертекст как промежуточное звено в письменной коммуникации Автор, ориентированный в конечном счете на создание линейного текста, может в ходе работы представлять свой материал в гипертекстовой форме в виде системы переходов между фрагментами . Делается это с целью нахождения наилучшей последовательности заготовленных для будущего текста фрагментов, наилучшего маршрута чтения этих фрагментов, для того чтобы затем представить этот маршрут как единственный, то есть линейный текст. В этом случае гипертекст выступает в процессе письменной коммуникации как промежуточное звено.
5. Необходимость сложной технической среды Чтобы естественный процесс чтения не нарушался, любой фрагмент, выбранный в качестве продолжения читаемого текста, должен предъявляться читателю практически мгновенно, без усилий , как это происходит при перелистывании страниц в книге. Ясно , что бумажная форма существования текста не может обеспечить таких возможностей. Гипертекст может существовать только в технически сложной среде, способной обеспечить необходимую быстроту предъявления выбираемых фрагментов.
6. Чтение гипертекста при помощи гипертекстовой системы Человек, создающий или читающий гипертекст, взаимодействует с системой, находится в диалоге с ней. Если гипертекст предназначен для чтения, система указывает, к каким именно фрагментам (текстам) можно перейти от текста, читаемого в данный момент, и как совершить желаемый переход. Для того чтобы выбрать начало чтения, система может предложить каталог всех имеющихся в гипертексте фрагментов или их структурированное оглавление. Читатель просматривает на экране заголовки и выбирает какой-либо из них, затем выводит соответствующий текст на экран. Система может предоставить для выбора начала чтения различные индексы, указатели.
7. Осуществление перехода. Пользовательский интерфейс Действия читателя, связанные с переходом к выбранному им фрагменту, не должны превышать некоторого порога сложности . Чем больше размерность и многообразие системы возможных переходов в гипертексте, тем больше требуется технической изощренности, чтобы не превысить тот порог сложности чтения гипертекста, за которым это чтение становится психологически неприемлемым или практически недоступным. Задача компьютерной гипертекстовой системы - обеспечить естественность перехода к новым фрагментам текста. Очень важной для пользователя (читателя) характеристикой гипертекстовой системы является также время перехода к следующему узлу. Быстрота (практическая мгновенность) также рассматривается как критерий « гипертекстовости ». Критерием " гипертекстовости " является скорость ответа системы на запросы но содержанию адресатов ссылок. Задержка должна быть очень малой (самое большое 1-2 сек.). При проектировании в большинстве систем эта сторона потребует много усилий.
8. Поиск элементов гипертекста по ключевым словам Одним из главных достоинств хранения текста в компьютерной памяти является возможность отыскивать в текстах определенные слова и выражения, а также сами тексты и их фрагменты по этим словам и по приписанным к текстам, описывающим их содержание, дескрипторам. Такого рода процедуры, естественно, можно осуществлять и по отношению к тем электронным текстам, которые являются элементами гипертекста. Практически все гипертекстовые системы обеспечивают возможность поиска текстовых фрагментов - элементов гипертекста - по ключевым словам.
9 . Технология создания больших гипертекстов Установление связей в гипертексте требует больших интеллектуальных затрат. Когда гипертекстовая система растет, поддержание эффективного процесса установления связей - автоматически или вручную - становится весьма трудоемким. В настоящее время активно разрабатываются методы и средства, уменьшающие трудоемкость и повышающие качество установления связей в больших гипертекстовых базах данных. Для движения в пространстве гипертекста характерны следующие параметры: 1. Принципиальная дискретность (фрагментарность) гипертекста 2. Гипертекстовая сеть 3. Движение в гипертексте - навигация 4. Трудности навигации
Разнообразие форм и видов гипертекста может быть охарактеризовано следующим образом: 1. Примитивный и «чистый» гипертекст. Переходные случаи 2. Замкнутый и открытый, статический и динамический гипертексты 3. Гипертекст на «мягких» связях 4, Логизированный гипертекст 5. Гипермедиа
Области применении гипертекстовых систем могут быть охарактеризованы следующим образом: 1. Система подсказок в среде MS Windows Одним из простых средств представления знаний о предметной области в виде гипертекста является, например, система помощи ( Help ) в среде MS Windows . При этом весь материал может быть разбит на отдельные логические фрагменты и внутри каждого такого фрагмента выделены (специальным цветом) ключевые слова или ссылки для перехода к другим логическим фрагментам .
2. Гипертексты - справочники Многие справочные книги большого объема, книги, насыщенные ссылками, переведены в форму гипертекста. Гипертекстовая форма в этом случае облегчает освоение представленного в книге содержания, не изменяя его. Так, в форму гипертекста был переведен Большой Оксфордский словарь. Эффективность использования структуры гипертекста для представления Оксфордского словаря связана прежде всего с его объемом и насыщенностью заключенной в нем информации, сложной для восприятия в случае применения традиционной линейной структуры.
3.Гипертексты, дублирующие «книжные» издания Самые простые примеры электронных изданий - это традиционные книги в записи на дискетах. По программе Expanded Book компании Voyager многие из ранее опубликованных изданий выпускаются с гипертекстовыми дополнениями. Эти издания позволяют осуществлять полнотекстовый поиск, получать аннотации, делать пометки, подчеркивания, как и при обычном чтении. « Расширенная » книга не преобразует печатный текст, а всего лишь переводит его в компьютерный вид.
4. Гипертексты - накопители информации По мере того как развивается и становится все более доступным технический инструментарий гипертекста, создается все больше гипертекстов, не имеющих книжных аналогов. Таковы, например , гипертексты, накапливающие информацию для справочных и аналитических целей, причем в таких объемах, которые трудно или практически невозможно представить в книжной форме . В исследовательском центре Аризонского университета осуществляется систематическое накопление в форме гипертекста текстовой информации о развитии информационных технологий в разных странах мира, в том числе и в нашей стране. Эта гипербаза насчитывает уже десятки тысяч единиц текстовой информации и увеличивается на 200-500 единиц в месяц.
5. Учебные курсы Не имеют прямых книжных аналогов и учебные курсы, представляющие материал по предмету как совокупность взаимосвязанных когнитивных единиц, а не в форме последовательного содержания (что дает возможность отделить осваиваемое содержание от формы и порядка его изложения). Примером может служить известный курс английской литературы в Брауновском университете США. Этот гипертекст предназначен как для преподавателей (он помогает им организовывать и представить учебный материал), так и для студентов (он помогает им изучать учебный материал и добавлять к нему свои аннотации и доклады).
6. Авторские системы Гипертексты создаются и для записи мыслей, идей, набросков , заготовок в процессе умственной работы, индивидуальной и коллективной. Эти гипертексты имеют не коммуникативную функцию , а функцию фиксации, отображения мыслей в их взаимосвязи. Создаются и гипертексты информационного характера, предназначенные для самих авторов этих гипертекстов - отдельных индивидов и коллективов. К числу наиболее распространенных авторских систем относятся HyperCard для ЭВМ Macintosh фирмы Apple , Toolbook для ЭВМ PC / Windows , а также классические системы гипертекста Hyperties , KMS , NoteCards , SEPIA .
7. Распределенные информационные сети Еще одна реализация идей гипертекста представлена в организации данных в сети World Wide Web , в которой документы «могут ссылаться друг на друга» посредством гипертекстовых связей . WWW - это распределенная информационная система мультимедиа, основанная на гипертексте, первое использование структуры Интернет для новых издательских форм. Она представляет собой гигантское запоминающее устройство, доступное с любого персонального компьютера в любой точке земного шара. Благодаря гипертекстовой структуре WWW позволяет перемещаться по текстам и изображениям, делая каждого пользователя одновременно и автором, и читателем. Такие системы, как WWW HomePages , открывают возможности широкого коммерческого использования Интернет.
8. Гипертекст для информационного поиска Информационно-поисковый гипертекст - это массив текстов , обеспечивающий доступ к документам, главным образом, с помощью навигации и браузинга . Информационно-поисковый гипертекст состоит из узлов, содержащих информацию, и ссылок-связей между узлами. Пользователь осуществляет навигацию от узла к узлу, используя ссылки. С помощью выбора того или иного маршрута пользователь получает нужную ему информацию.
9. Автоматическое создание и управление большими открытыми сетями Быстрый рост World Wide Web ( WWW ) ознаменовал появление гипербаз , содержащих несколько сотен тысяч сетевых документов . Появление подобных гипербаз было бы невозможно без появления инструментария для автоматического конвертирования исходных документов в формат HTML , обнаруживания связей внутри и между документами, а также средств автоматической модификации документов и сетевых ссылок.
Создание вручную такой гипербазы было бы непреодолимой задачей. Инструментарий для автоматического создания необходим при создании больших гипербаз . Он должен обеспечивать автоматическую конвертацию документов в формат системы HTML , но его использование не обеспечивает создание правильных и полных ссылок. Для этого инструментарий должен включать в себя также и критерии выделения ссылок для того, чтобы пользователь смог предугадать эффект от выбора данной ссылки. Для решения этой проблемы был предложен критерий выбора ссылок четырех типов: структурных, референциальных , семантических и условных.
1. Структурные ссылки Структурные ссылки связывают элементы объектов с другими элементами или с целым объектом. Структурными ссылками являются ссылки между страницей индексов данного подмассива гипербазы и документами из этого подмассива , а также ссылки между подфрагментом документа и содержащим его фрагментом. Подобные ссылки легко поддаются автоматическому выявлению и могут создаваться в процессе разработки гипербазы или в процессе работы с документом.
2. Референциальные ссылки Референциальные ссылки связывают выражение ( референцию ) в документе с его референтом. Примеры референциальных ссылок включают эксплицитные и имплицитные цитирования и более широко ссылки между реферирующим выражением (например, фамилия человека) и информацией, способной определить его референта (например, некоторые библиографические данные об этом человеке).
3. Семантические ссылки Семантические ссылки связывают документы, имеющие похожее содержание. Обычно для их выявления используются традиционные методы информационного поиска, что не всегда подходит для гипербаз . Тем не менее семантические ссылки должны присутствовать в массиве, и дальнейшая разработка методов автоматического выявления семантических ссылок вполне обоснованна.
4. Условные ссылки Любые два объекта могут быть связаны в зависимости от рода отношений между ними. Некоторые отношения вполне ( оба объекта являются документами). Большинство являются нетривиальными (например, оба документа - речи президента, произнесенные им с мая по июль и содержащие слово «Босния»). Критерии для подобных ссылок могут устанавливаться в зависимости от информационных нужд пользователей.
Спасибо за внимание!