Тезаурус. лінгвістичні засади побудови тезаурусу. Значення слова зразок у тезаурусі російської мови Складання тезаурусу понять

Понятийная система предметної области Основою будь-якої предметної області є система понять цієї області. Визначення поняття: Поняття - думка, що відображає в узагальненій формі предмети та явища дійсності за допомогою фіксації їх властивостей та відносин; останні (властивості та відносини) виступають у понятті як загальні та специфічні ознаки, співвіднесені з класами предметів та явищ ( Лінгвістичний словник)


Поняття та терміни Для вираження поняття предметної області у текстах служать слова чи словосполучення, які називаються термінами. Сукупність термінів предметної галузі утворюють її термінологічну систему. Відношення конкретного терміна з іншими термінами терміносистеми предметної області визначається за допомогою дефініції


Визначення терміна? Слово (або поєднання слів), що є точним позначенням певного поняття будь-якої спеціальної галузі науки, техніки, мистецтва, життя і т.п. || Спеціальне слово або вираз, прийняте для позначення чогось л. у тому чи іншому середовищі, професії (Великий тлумачний словникросійської мови)


Терміни – точні назви понять Зазвичай кожному поняттю області відповідає хоча один однозначно розуміється термін, значенням якого є це поняття. - терміни, у сенсі традиційної теорії термінології Властивості термінів – точних найменувань понять - термін повинен ставитись безпосередньо до поняття, він повинен висловлювати поняття ясно; - значення терміна має бути точним і має перетинатися за значенням коїться з іншими термінами; - Значення терміна не повинно залежати від контексту. Терміни, що точно називають поняття, - предмет дослідження теорії термінології, термінологів


Текстові терміни У реальних текстах предметної області посилання на поняття крім основних термінів може використовуватися безліч різноманітних мовних висловів, які називаємо текстовими термінами: - синтактико-словообразовательные варіанти: одержувач бюджетних коштів – бюджетополучатель; - лексичні варіанти - безакцептне списання, безперечне списання; - багатозначні висловлювання, залежно від контексту службовці відсилання до різних понять області, наприклад, слово валюта у різних контекстах може означати національна валюта чи іноземна валюта.














Дескриптори з послідами Послід - частина назви дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) - зіставлення різних тезаурусів Уподобання словосполученням: -Phonograph records vs. records (phonograph) Посліди та множина: Wood (material) Woods (forested areas)






Включення дескрипторів на основі багатослівних виразів Розщеплення терміну збільшує багатозначність: plant food Сенс вираження залежить від порядку слів: інформаційна наука - наукова інформація Одне зі слів-компонент знаходиться поза сферою тезаурусу або занадто загальне: Відносини дескриптора не випливають з його структури: нирки, статус біженця, traffic lights




Асоціативні відносини Сфера діяльності – дійова особа – Математика – математик Дисципліна – об'єкт вивчення – Неврологія – нервова система Дія – агент або інструмент – Полювання – мисливець Дія – результат дії – Ткацтво – тканина Дія – мета – Палітурні роботи - книга Причина-слідство –Смерть - похорон Величина - одиниця виміру - Сила струму - ампер Дія - контрагент - Алерген - антиалергічний препарат і т.п.


Інформаційно-пошукові тезауруси: етапи розробки Перший етап: індексатори описують основну тему тексту довільними словами та словосполученнями Отримані по багатьох текстах терміни зводяться разом Серед близьких за змістом термінів вибирається найбільш представницький


Інформаційно-пошукові тезауруси: мистецтво розробки Дескриптори – це терміни, які потрібні для вираження основної теми документа Синоніми включаються лише найнеобхідніші (наприклад, починаються з іншої літери), щоб не ускладнювати роботу індексатора Близькі терміни повинні бути зведені до одного терміну, щоб уникнути суб'єктивності індексування рівні ієрархії, включення конкретних термінів обмежуються


Інформаційно-пошуковий тезаурус: мистецтво розробки - 2 У складних випадках дескриптори постачаються послідами та коментарями -LIV: bombardment - bombing -Многозначні терміни: одне значення в тезаурусі (capital), не поміщаються в тезаурус, посліди!!! Традиційний інформаційно-пошуковий Тезаурус – штучна мова, побудована на базі реальних термінів




Традиційні ІПТ: застосування в автоматичній обробці Нестача знань про реальну мову ПОНехватка знань про реальну мову ПЗ Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексті TROOPS – у тезаурусі MILITARY FORCES –в тексті CAPITAL – столи доповнити списками слів та термінів Пропонується: кожен дескриптор доповнити списками слів та термінів Але: багатозначність або що стосується різних дескрипторів. Але: багатозначність або відноситься до різних дескрипторів. Роздільна здатність багатозначності Роздільна здатність багатозначності


Традиційні ІПТ: автоматичне розширення запиту Проблема з асоціаціями Пропонується: вводити ваги вводити ваги вводити назви відносин: об'єкт, властивість тощо. вводити назви відносин: об'єкт, властивість тощо. ВИСНОВОК: потрібно навчитися будувати лінгвістичні ресурси спеціально для автоматичної обробки текстових колекцій


Тезаурус EUROVOC – багатомовний тезаурус Європейського Співтовариства Тезаурус 9 мовами Українська версія EUROVOC –+5 тисяч понять, що відображають російську специфіку Багатомовний тезаурус –Дескриптор – назви на різних мовах–Аскриптори – для деяких мов


Автоматичне індексування за тезаурусом EUROVOC, засноване на правилах (Hlava, Heinebach, 1996). Тестування: 20 найчастіших за текстом дескрипторів, породжених автоматично – 42% повноти, порівняно з ручним рубкуванням


Автоматичне індексування на основі встановлення ваги відповідності між словами та дескрипторами (Steinberger та ін., 2000) 1 етап – встановлення відповідності між словами тексту та приписаними дескрипторами на основі статистичних заходів (chi-square або log-likelihood) дескриптор FISHERY в порядку зменшення ваги): fishery, fish, stock, fishing, conservation, management, vessel, тощо. 2 етап власне індексування - підсумовування логарифмів ваг або як скалярний добуток векторів


Поєднання вільних запитів та запитів на основі інформаційно-пошукового тезаурусу Проіндексована вручну колекція – встановлення кореляцій Користувач задає запит природною мовою Запит розширюється найбільш сильно корельованими із запитом дескрипторами тезаурусу (Petras 2004; Petras 2005). Наприклад, за запитом Insolvent Companies (Неплатоспроможні компанії) може бути отриманий список дескрипторів liquidity, indebtness, enterprise, firm., і розширення запиту Точність в експерименті зросла на 13 %.



Першим етапом створення тезаурусу був пошук інформації про будову тезаурусів, його типи та діючі програми. Другим етапом був вибір мови програмування та схема побудови свого майбутнього тезаурусу. Третій етап – це пошук інформації для його заповнення, для цього я використав «Учбово-методичний комплекс Комп'ютерні мережі».

Ось пара прикладів тезаурусів (дивіться малюнок 1.1 та малюнок 1.2):

Малюнок 1.1 - Інформаційно-пошукова система Thesaurus.com

Малюнок 1.2 - Словник ґендерних термінів

Після збору необхідної інформації, почалося створення тезаурусу. Для створення тезаурусу було обрано мову програмування – HTML. Hyper Text Markup Language - «HTML» (мова розмітки гіпертексту) багато хто вже давно перестав його вважати просто мовою програмування. Так як саме поняття HTML включає різні методи оформлення гіпертекстових документів, дизайн, гіпертекстові редактори, браузери і багато іншого. Користувач, який освоїв цю мову, набуває можливості робити серйозні речі простими методами і, головне, швидко, що в сучасному світівважається дуже добре!

На мові HTML можна створювати власні мультимедійні продукти і розповсюджувати їх на будь-яких носіях інформації, і всі ці продукти, виконані у вигляді наборів HTML-сторінок, не вимагають розробки спеціалізованих програмних засобів, оскільки все необхідне для роботи з даними (Web-браузери) стали частиною стандартного програмного забезпеченняБільшість персональних комп'ютерів.

Код майбутньої Web-сторінки зазвичай набирається в стандартному текстовому редакторі, але є інші програми, і мови програмування, наприклад: Adobe Dreamweaver CS3, JavaScript, Паскаль, С, С++, Бейсик, Пролог.

Почнемо з того, що тезаурус буде складатися з трьох кадрів: кадр з заголовком, кадр з посиланнями і кадр для вмісту, як показано на малюнку 1.3.

Малюнок 1.3 - Схема тезаурусу

Для створення ескізу тезауруса використовували такі теги та атрибути мови HTML:

текст- Заголовок сайту;

- два кадри по горизонталі розміром в 120px і простір, що залишився;

- скасування можливості розтягувати межі кадру;

- Фрейми по вертикалі;

- Вказує ім'я кадру для можливості направлення інформації в цей кадр.

Для заповнення кадрів інформацією, пишемо код у документах: "new.txt" - кадр "Заголовок", "nav.txt" - кадр "Посилання", "main.txt" - кадр "Зміст".

У документі "new.txt" знаходиться код, що відповідає за назву самого тезаурусу. Основні теги: