Создание электронного словаря: основнъге проблемъг и приемъг.
При опред елен ии стру кту рь а втома тического слова ря н еобходимо решить три осн овн ье задачи: 1) опред елен ие формь заглавной един иць ; 2) опред елен ие объема ин форма ции, котора я будет включаться в описа н ие лексической един иць ; 3) вьбор оптимального способ а орга н иза ции слова рн ой ста тьи в ба зе.
Суш,ественное значение ддя электронного словаря имеет вьбор основной единицм его словника. Для крушпьх словарей обшей лексики основной единицей является слово. Словосочетания да ются обьчно в соста ве ста тей на отдельнье слова .
Что ка са ется а втома тических слова рей в сист емах ма ши нного перевода, то там дело с вьбором ед ин иць обстоит н есколько иначе. До 80% их лексических массивов соста вляют словосочета ния. Кру пн ье си стемь ма ш инного перев ода содержат объемнье терминологические банки данньх и и спользу ются как т ерм ин ологические словари . Верхн яя гра н ица словосочета ния в та ких система х мож ет бьть ра змьта настолько, что в качестве са мостоятельньх ста тей в них могут бьть включень отдельнье предлож ения и даже б олее кру пн ье текстовье фра гменть . В опред елен н ьх ситуациях та кое реш ен ие оказьвается весьма удобньм. При использова нии а втома тических переводньх слова рей для
полу а втома тического перев ода (с последуюшим редактированием) ста нда ртньх т екст ов (сопроводительной документации или ю рид ических текстов), где определеннье фра гменть регу лярн о повторяются, удобно переводить именно фрагментами.
Структура слова рн ой статьи в ра зличн ьх электронньх словарях мож ет вьглядеть по-разному, об ъем статьи мож ет колеб а т ься от 10 до 99 зон, в кот орьх ф иксируется ра знотипна я лингвистическая и экстра лингвистическа я информа ция. Ста нда ртньй на бор включа ет в себя следу юшие сведения: за головочн ое слово, один или н есколько ин оязьчн ьх эквива лентов (если речь идет о переводном словаре), информа цию о тема тической принадлежности да нного слова , грамматическую информа цию, дефиницию, контексть , информа цию о лексической сочета емости, сема нтические иера рхические связи за гла вн ого слова, информа цию о ст илист ических ха ра ктеристика х слова, и сточни ки, фа милию а втора слова рн ой статьи, дату посту пления в базу данньх и другую служебную информа цию.
Кажкдая основа (лексическая единица), входяш,ая в базу данньк, полу ча ет описа ние на м орф ологическом, синта ксическом, сем а н т ическом и функциональном у ровнях в виде набора ха ра кт ерист ик. Синта ксические и м орф ологические ха ра кт ерист ики необходимь, если элект рон н ьй слова рь использу ет ся в а вт ома т ических сист ема х обработки т екст ов (например, при переводе или поиске информации). С помошью этих ха ра кт ерист ик определяет ся значение т екст овой слов оф орм ь и устанавливается ее синта ксическа я роль в предлож ении. Семантические характеристики описьшают значение единиць, а функциональньш - ее потенциальную роль в обш,ей структуре текста.
Чтобь ра зместить названнье ха ра ктеристики, в соврем ен н ьх система х а втома тической обработки т екст ов могут использова ться словарнье статьи трех видов .
Слова рн ье статьи единой ж есткой структурь , им ею шие фиксированную длину. При такой структуре заранее опред елен ь все типь инф орма ции, кот орье включаются в статью, а гра ниць зон фиксиру ю тся по объему (в байтах). При отсу тствии инф орма ции кон крет н ого типа соответству юшие поля остаются свободньми. Словарнье статьи с ж есткой стру кту рой удобнь тем, что позволяют легко дополнять и корректирова ть инф орма цию, если она предусмотрена стру кту рой статьи, т.е. для нее заранее опред елен а позиция. Но есть и недостатки. В тех слу ча ях, когд а вводится а бсолютно новая инф орма ция, необходимо полн ост ью перестра ива ть стру кту ру слова рной статьи, да и всю базу данньх. Ч тобь избежать эт ого, слова рну ю статью с ж есткой стру кту рой делают ма ксима льно гром озд кой, фиксиру я все потенциа льно возмож нье ха ра ктеристики лексических единиц. В резу льта те больш инство позиций в та кой статье оста ется незаполненньм, а память ком пью т ера при этом использу ется нерационально.
Вт орой способ орга н иза ции слова рной статьи элект рон н ого слова ря - это создание статьи с плаваюшей правой гра н ицей. Здесь описание задается по прин ципу «признак - значение» . Соста вление статьи происход ит по определенной схем е. Вся инф орма ция ра спределяется по зонам, коли чест во кот орьх опред еляет ся об ъем ом конкретной инф орма ции. Лексическа я ед ин ица описьвается с т очки зрен ия принадлеж ности к опред елен н ом у кла ссу, по своим формальньм и семантическим характеристикам. Плаваюшая правая граница су шеству ет т олько на этапе предва рительного введения инф орма ции. При ввод е статьи в память ком пью т ера это описание долж но преобразовьваться в такую же жесткую структуру, как и в первом слу ча е.
Третий способ - это создание слова рной статьи с иера рхической организацией. В этом случае весь слова рь делится на две части: список словарньх входов с приписанной обяза тельной инф орма цией и слова рь зна чений. При этом предва рительно созда ется иера рхия всех характеристик лексических единиц: вьделяются верхние и нижние уровни иера рхии. Х а ра ктеристики верхних уровней ввод ятся непосредственно в структуру словарной статьи. Все остальнье характеристики (как правило, семантические) вьшосятся в отдельнье файль1, а в структуру словарной статьи вводятся отсьлки к этим файлам.
Словарная ста тья элект рон н ой версии The New Oxford Dictionary of English вьглядит с.юдуютим образом:
standard entry, or
encyclopedic entry, embedding
hw> headword
pr> pronunciation
s1> sense level 1 (part of speech)
Do'stlaringiz bilan baham: |