Татарские статьи, рефереты и курсовые
Здесь размещаются статьи, на тему трудностей перевода на или с татарского языка. Они помогут вам более глубоко ознакомится с правилами литературного перевода и будут полезными в обучении.
Основы орфографии и пунктуации татарского литературного языка
Орфография – это совокупность норм и правил правописания. Орфография татарского языка основывается на следующих принципах:
фонетический – является основным в татарском языке, на основе которого слова пишутся так, как слышатся: кил приходи, әйт говори, акча деньги, әни мама и т.д. Однако не все слова подчиняются этому принципу;
морфологический – значащие части слова (морфемы) пишутся единообразно вне зависимости от произношения: [умбер] унбер, [төңге] төнге, [тоссос] тозсыз;
…
Читать далее
Нәни Принц. «Маленький принц» на татарском языке
Китабымны олы кешегә багышлавым өчен балалардан гафу үтенәм. Акланып шуны әйтә алам: бу кеше — минем иң якын дустым. Дөньядагы бар нәрсәне, хәтта балалар өчен язылган китапларны да аңлый ул. Аннары, ул Франциядә яши, ә анда хәзер тормыш бик авыр: көннәр суык, кешеләр ачлы-туклы. Шуңа күрә җылы сүзгә бик мохтаҗ ул. Әгәр иңде шушы акланулар гына җитми икән, мин бу китапны дустымның бала чагына багышлыйм. …
Читать далее
Муса Җәлил балладалары
Кереш
Баллада (французча ballade, соңгы латин телендә ballo – бию), – Европаның урта гасыр әдәбиятындагы лирик жанр.
Баллада – сентиментализм һәм романтизм әдәби юнәлешләрнең төп жанры булып тора (Р. Бёрнс, С. Колридж, Г. Бюргер, Ф. Шиллер, И.В. Гёте, А. Мицкевич, В. Жуковский). Романтик баллада – нинди дә булса фантастик, фольклор, риваять нигезендә төзелгән сюжетлы лиро-эпик әсәр.
Бу жанр әдәбият теориясендә катлаулы мәсьәлә булып тора. …
Читать далее
Проблема перевода стихотворений Лермонтова татарскими поэтами
Цель настоящей работы – исследование перевода стихотворений М. Ю. Лермонтова с точки зрения эстетической интерференции.
Эстетическая интерференция как одно из явлений художественного восприятия национальной литературы возникает в разных формах. Сильнее всего эстетическая интерференция реализуется в читательском восприятии, которое, имея свои характерные особенности отличается, например, от восприятия переводчиком литературного произведения.
…
Читать далее
Образы матери в русской и татарской литературе 20-30-х гг.
В русской и татарской литературе 20-30-х годов появился лирический образ матери, начиная с С. Есенина в русской и М. Джалиля в татарской литературе. Но в поэзии военных лет образ матери изменился. Он начал ассоциироваться с надеждой, с родиной, с победой. Именно для анализа подобного образа матери мы рассмотрели балладу А. Дементьева, М. Джалиля и поэму-балладу Ф. Карима.
I. Андрей Дементьев «Баллада о матери»
…
Читать далее
Творчество Г.
Тукая и его место в истории литературы народов РоссииКак пишет известный литературный критик, исследователь поэзии периода Габдуллы Тукая, Г.Халит; «1905-1907 нче елларда иң беренче нәүбәттә поэзиянең кинәт күтәрелеп китүе очраклы булмады, әлбәттә, – дип тасвирлый бу чорны Г.Халит. – Моның беренче сәбәбе – гасырлар буенча көйрәп килгән шигъри традицияләрнең яшәүченлегендә, икенчесе – милли әдәбиятны буып торган киртәләрнең бер өлеше революция нәтиҗәсендә җимерелеп, вакытлы матбугат дөньясына ишек ачылу да, акыл һәм хис ирегенә сусауның, ашкынуның куәт алуында иде» …
Читать далее
Женские мифологические образы в балладах М. Лермонтова «Русалка», М. Горького «Легенда о Марко», Г.Тукая «Су анасы», Г.Сунгати «Су анасы»
(сопоставительный анализ)
В связи с тем, что в современном литературоведении отсутствует термин «мифологические элементы», в начале данной работы целесообразно дать определение этому понятию. Для этого необходимо обратиться к трудам по мифологии, в которых представлены мнения о сущности мифа, его свойствах, функциях.
Читать далее
Переводы стихотворений Пушкина на татарский язык
Цель настоящей работы – исследование перевода стихотворений А.С. Пушкина с точки зрения эстетической интерференции.
Эстетическая интерференция, также как и языковая, представляет собой отклонение, нарушение, которая вызывается тем, что читатель чаще всего, а иногда и намеренно, воспринимает иноязычное произведение в свете традиций родной литературы и языка.
В первую очередь, эстетическая интерференция связывается с тем, что у разных народов могут быть разные верования и обычаи. …
Читать далее
Главная Другое Физика Философия Химия Банк Право Военное дело Бухгалтерия Журналистика Спорт Психология Литература Музыка Медицина |
страница 1 Реферат «Татарский язык» История татарского языкаТАТАРСКИЙ ЯЗЫК, один из тюркских языков; относится к кыпчакской группе. Иногда называется также булгаро-татарским или волжско-татарским для отличия от крымскотатарского языка. Распространен в Республике Татарстан, где, по Конституции 1992, является государственным наряду с русским, а также в Башкортостане, Мордовии, Марий Эл, Чувашии, Республике Коми, Челябинской, Свердловской и множестве других областей РФ, в Москве и Санкт-Петербурге, а также в Средней Азии и Азербайджане. Общее число говорящих, по данным переписи населения СССР 1989, превышает 5,5 млн. человек при общем числе этнических татар в 6,65 млн. человек.Выделяются три диалекта с многочисленными говорами внутри каждого из них: средний, западный (мишарский) и восточный (язык сибирских татар). Самоназвание «татары» было воспринято от русских сперва мишарями (во второй половине 19 в.), а в начале 20 в. и другими представителями народа, в частности, носителями среднего диалекта, ранее называвшими себя «булгарами» (bolgar) или «казанцами» (казан кешесе, казанлы). Непосредственные соседи казанских татар и поныне называют их по-своему: марийцы – сюас, удмурты – бигер, казахи и каракалапаки – нугай. РаспространённостьРаспространён в Татарстане, в ряде районов Башкортостана, Марий Эл, Удмуртии, Мордовии, Тюменской, Ульяновской, Саратовскойи во многих других областях России, а также в отдельных районах , Казахстана, Азербайджана, Киргизии, Таджикистанаи Туркмении. Число говорящих в России около 5,3 млн человек по состоянию на 2002 год (5,1 млн согласно переписи 1989 года). Татарский язык распространен также среди башкир, марийцев и чувашей.
Татарский язык, наряду с русским, является государственным языком Республики Татарстан (Закон Республики Татарстан «О языках народов Республики Татарстан», 1992). В Татарстане и в местах проживания диаспоры существует развитая сеть учебных и воспитательных учреждений, в которых используется татарский язык: дошкольные учреждения с татарским языком в качестве воспитания, начальные и средние школы с татарским языком в качестве средства обучения всем предметам, а также начальные и средние школы, в которых язык изучается как предмет. Кроме традиционного использования татарского языка в качестве предмета изучения и средства обучения на филологических факультетах Казанского государственного университета, пединститутов и педучилищ, татарский язык как язык обучения в настоящее время применяется на юридическом факультете и факультете журналистики Казанского университета, в Казанской консерватории и Казанском государственном институте искусства и культуры. На татарском языке издаётся учебная, художественная, публицистическая и научная литература, выходят десятки газет и журналов, ведутся радио- и телепередачи, работают театры. Центрами научного изучения татарского языка являются факультет татарской филологии и истории Казанского государственного университета, кафедра татарской филологии филологического факультета Башкирского государственного университета, факультет татарской филологии Татарского государственного гуманитарно-педагогического университета и Институт языка, литературы и искусства Академии наук Республики Татарстан. Значительный вклад в изучение татарского языка и его диалектов внесли ученые И. Хальфин, Г. Ибрагимов, Дж. Валиди, Г. Алпаров, В. Богородицкий, В. Хангильдин, Л. Заляй, Г. Ахатов, Ф. Ганиев, М. Закиев, В. Хаков, Р.Сабиров и др. На уроках татарского языка именно я пытаюсь выучить язык людей, с которыми я живу в родной для себя Республике Татарстан. Для русских детей татарский язык является иностранным. Преподавание его начинается с детского сада, а затем продолжается в школе с первого класса. Я хочу освоить основные слова и понятия языка, научиться понимать песни и стихи татарских поэтов. В этом мне помогает моя учительница по татарскому языку – Альбина Фагимовна, которая старается так преподнести для меня учебный материал, чтобы я быстрее и как можно легче для себя освоила татарский язык. Я думаю, что мне каждый день по маленькой крошке удается осваивать татарский язык. Смотрите также: Реферат «Татарский язык» 51.91kb. 1 стр. Переводы произведений В. Маяковского на татарский язык (вопросы поэтики) 10. 01. 01 русская литература 283.09kb. 1 стр. Учебный год 11 мая (среда) Современный татарский язык в 09. 00 ауд. 1112 (1161) 71.88kb. 1 стр. Лутфуллина Рашида Нурулловна, Ахтямзянова Лилия Габдулловна; татарский язык и литература 22. 73kb. 1 стр. Татарский язык в поликультурном пространстве 63.76kb. 1 стр. Реферат по предмету английский язык Народные промыслы Сергиева Посада 57.35kb. 1 стр. Реферат по предмету английский язык Архитектурный ансамбль Троице-Сергиевой Лавры 117.94kb. 1 стр. «Чтобы быть хорошим преподавателем, нужно любить то, что преподаешь, и любить тех, кому преподаешь». В. Ключевский 79.21kb. 1 стр. Программа профессионального бакалавриата «письменный и устный перевод» 261.84kb. 1 стр. Литература •Историческая книга •Фантастика •Русская литература •Зарубежная литература •Аудиокниги на английском языке 59.72kb. 1 стр. Разновременная синонимия в переводном тексте (на материале переводов коранических текстов на русский и татарский языки) 10. 02. 01 русский язык 10. 02. 20 сравнительно-историческое, сопоставительное и типологическое языкознание 325.15kb. 1 стр. Старославянский язык – древнейший письменный язык славян. История его создания 96.81kb. 1 стр. |
Языковая «Чистота» и дерусификация татарского
Автор
Перечислены:
- Вертхайм, Сюзанна
Зарегистрирован:
Тезисно
Татарский – это тюркский язык, на котором говорят в Татарстане, Россия, четверть из четырех миллионов жителей. Татарская этническая идентичность, сконструированная посредством лингвистического исполнения, неразрывно связана с ориентацией на русский язык и культуру или наоборот, так что целостность и культурная «чистота» постсоветских татар, которые многие считают необходимыми для выживания татарский язык, культура и нация – приравнивается к дерусификации. Практики «очищения» обычно включают очищение от русского влияния, в то время как влияния других культур (например, персидской, арабской) остаются. Эта дерусификация, выражающаяся в различных очистительных движениях, происходит в постсоветской социолингвистической среде, где, хотя климат более благоприятен для использования татарского языка, чем в прошлые годы, языковой переход к русскому языку продолжается быстрыми темпами.
Предлагаемое цитирование
Обработчик: RePEc:cdl:bpspss:qt81z5217g
как
HTMLHTML с абстрактным простым текстомпростой текст с абстрактнымBibTeXRIS (EndNote, RefMan, ProCite)ReDIFJSON
Скачать полный текст от издателя
URL файла: https://www. escholarship.org/uc/item/81z5217g.pdf;origin=repeccitecОграничение на скачивание: no
—>
Подробнее об этом товаре
Ключевые слова
Татарстан; постсоветский; этническая идентичность; язык; очистка; языковое исполнение;Все эти ключевые слова.
Статистика
Доступ и статистика загрузкиИсправления
Все материалы на этом сайте предоставлены соответствующими издателями и авторами. Вы можете помочь исправить ошибки и упущения. При запросе исправления, пожалуйста, укажите дескриптор этого элемента: RePEc:cdl:bpspss:qt81z5217g . См. общую информацию о том, как исправить материал в RePEc.
По техническим вопросам, касающимся этого элемента, или для исправления его авторов, названия, реферата, библиографической информации или информации для загрузки, обращайтесь: . Общие контактные данные провайдера: https://escholarship.org/uc/iseees_bps/.
Если вы создали этот элемент и еще не зарегистрированы в RePEc, мы рекомендуем вам сделать это здесь. Это позволяет связать ваш профиль с этим элементом. Это также позволяет вам принимать потенциальные ссылки на этот элемент, в отношении которых мы не уверены.
У нас нет библиографических ссылок на этот элемент. Вы можете помочь добавить их, используя эту форму .
Если вы знаете об отсутствующих элементах, ссылающихся на этот, вы можете помочь нам создать эти ссылки, добавив соответствующие ссылки таким же образом, как указано выше, для каждого ссылающегося элемента. Если вы являетесь зарегистрированным автором этого элемента, вы также можете проверить вкладку «Цитаты» в своем профиле RePEc Author Service, так как некоторые цитаты могут ожидать подтверждения.
По техническим вопросам относительно этого элемента или для исправления его авторов, названия, реферата, библиографической информации или информации для загрузки обращайтесь: Лиза Шифф (адрес электронной почты доступен ниже). Общие контактные данные провайдера: https://escholarship. org/uc/iseees_bps/.
Обратите внимание, что фильтрация исправлений может занять пару недель. различные услуги RePEc.
Грамматическая аннотация и реализация – тема научной работы в области компьютерных и информационных наук. Скачайте научную статью в формате PDF и читайте бесплатно в открытом научном центре КиберЛенинка. 9век “Туган тел”: Грамматический
Аннотация и внедрение
Джавдет Сулейманова,б, Ольга Невзорова,б*, Айрат Гатиатуллина,б, Ринат Гильмуллинаб,Булат Хакимова,б
НИИ прикладной семиотики АН РТ ул. Баумана, 20, Казань, 420111, Россия bКазанский (Приволжский) федеральный университет, ул. Кремлевская, 18, Казань, 420008, Россия,
Реферат
В статье представлен Национальный корпус татарского языка, который разработан в НИИ прикладной семиотики Академии наук Татарстана на технологической платформе ВАНК. Описывается морфологическая модель татарского языка, используемая для грамматической аннотации слов.
© 2013 Авторы. Опубликовано ElsevierLtd. Отбор и рецензирование под ответственность CILC2013.
Ключевые слова: татарский язык; тюркские языки; морфологическая аннотация
1. Введение
В настоящее время актуальны проекты создания общедоступных электронных корпусов тюркских языков. Среди известных проектов — корпуса турецкого языка (Аксан Ю. и др., 2012; Далкилис Г. и Кеби Ю., 2002; Сай, Бильге, Дениз Зейрек, Кемаль Офлазер и Умут Озге, 2002), уйгурского (Юсуп Айбайдулла, Ким-Тенг Луа, 2003), башкирский (Бускунбаева Л.А., Сиразитдинов З.А., 2011), хакасский (Шеймович, 2011), казахский (http://til.gov.kz) и тувинский (Салчак, 2012). ) языки. В настоящее время они находятся на разных этапах реализации проекта, и большинство из них говорят на одном языке. Уйгурско-китайский корпус является примером параллельного корпуса. На его основе разрабатывается различное программное обеспечение; в частности, корпус используется для проектирования систем статистического машинного перевода. Согласно
* Автор, ответственный за переписку. Тел.: +7-905-022-0318: факс: +7-843-292-6888 Адрес электронной почты: [email protected]
1877-0428 © 2013 Авторы. Опубликовано Elsevier Ltd. Отбор и рецензирование под ответственность CILC2013. doi: 10.1016/j.sbspro.2013.10.623
уровень полноты системы аннотаций, наиболее удачными являются электронные корпуса турецкого и уйгурского языков. Они внедрили системы аннотаций для разных языковых уровней. Другие вышеупомянутые проекты электронных корпусов тюркских языков находятся в начальной фазе своего развития. Таким образом, можно констатировать, что тюркская корпусная лингвистика в настоящее время находится в процессе формирования корпусов языков тюркской группы.
Разработка электронного корпуса татарского языка основана на ранних работах, связанных с созданием кульминации электронных ресурсов татарского языка (Бухараев, 1995). В настоящее время учеными НИИ прикладной семиотики АН РТ осуществляется проект по созданию Национального корпуса татарского языка «Туган тел». Это делается в рамках Программы фундаментальных исследований РАН «Корпус татарского языка». Языкознание» 2012-2014 гг. Национальный корпус татарского языка разработан как одноязычный корпус с грамматической аннотацией слов, в ближайшее время к нему будет добавлена семантическая аннотация. Корпус реализован на технологической платформе ВАНК (http:/ /www.eanc.net/).
В статье рассмотрены состав корпуса, морфологическая модель, которая используется для грамматической аннотации, а также вопросы текущей реализации татарского корпуса.
2. Состав Национального корпуса татарского языка
Национальный корпус татарского языка можно рассматривать как совокупность концептуальных и функциональных моделей разных уровней татарского языка (Сулейманов Д.Ш., Гатиатуллин А.Р., 2003) . Класс концептуальных и функциональных моделей включает в себя структурные и функциональные описания определенного лингвистического уровня (или уровней), а также различные виды общей информации, необходимой для разработки информационных систем и технологий обработки естественного языка.
Корпус представляет собой открытую систему, поэтому допускает расширение системы аннотаций (в настоящее время используется только грамматическая аннотация). Татарский корпус содержит тексты разных жанров и стилей современного литературного татарского языка. Основными источниками электронных копий текстов для корпуса являются художественные тексты, учебная и научная литература, тексты интернет-изданий познавательной, общественно-политической тематики и тексты официальных документов. В дальнейшем планируется усиление хронологического и жанрового баланса корпуса, т.е. за счет оцифровки печатных текстов советского периода.
Распределение текстов Национального корпуса татарского языка по жанрам представлено в таблице 1. В действующей версии корпуса тексты разделены на два типа: художественные и научно-популярные. В дальнейшем будет введена более подробная классификация жанров текстов.
Таблица 1. Распределение текстов по жанрам в Национальном корпусе татарского языка
Жанр Количество слов Доля в корпусе, %
Художественная литература 19279 033 71,45 %
Документальная литература 7 703 258 28,55 %
Итого 26 982 291 100 %
Набор метаданных связан с каждым входным текстом. Он отражает структуру базы данных, в которой хранятся документы коллекции. Для представления текстового документа используется следующий набор основных дескрипторов:
• Номер документа
• Имя файла
• Тип текста (оригинал/перевод)
• Язык документа
• Название произведения
• Автор произведения
• Фамилия переводчика (для переведенного документа)
• Жанр (художественная литература)
• Год издания
• Количество слов в документе (словоупотребления) )
• Наличие/отсутствие перевода на русский язык
• Количество слов в тексте на русском языке
• Источник исходного документа
• Поле примечания к исходному документу
• Источник перевода (редакционный)
• Поле примечания к переведенному документу
• Проверка документа корректором
3. Морфологическая модель и грамматическая аннотация
Система морфологической аннотации Национального корпуса татарского языка в основном ориентирована на изложение всех существующих грамматических словоформ, которые не всегда находят отражение в описательных исследованиях по татарской грамматике или имеют различные альтернативные толкования. В модели, используемой для формальной репрезентации татарской агглютинативной морфологии, словоформа строится путем последовательного добавления к базе правильных словообразовательных и флективных аффиксов. Как правило, каждое грамматическое значение выражается отдельным аффиксом, причем аффиксы бывают однозначными и правильными. Таким образом, для разметки слова необходимо анализировать структуру его аффиксальной цепочки, иногда используя словарь основ.
Грамматическая аннотация татарского слова включает в себя информацию о части речи слова и набор морфологических признаков (параметров). С учетом особенностей татарской морфотактики грамматические параметры делятся на сложные/простые, с одной стороны, и обязательные/необязательные, с другой стороны. Все сложные параметры представлены набором аффиксов, связанных с грамматической категорией (например, падежная категория имеет набор падежных аффиксов), а простые — одним аффиксом (например, категория допроса имеет единая вопросительная форма, как видно на примере (1)). В описании словоформы в определенной части речи всегда присутствует обязательный параметр (существительные всегда ставятся в определенном падеже, «беспадежных» существительных не бывает). В случае факультативного параметра аффикс, выражающий грамматическое значение, является факультативным (т.е. значение притяжательности не обязательно выражается в татарских существительных аффиксальными средствами).
Рассмотрим примеры (2), (3) и (4). Примеры (2) и (3) являются примерами явного представления падежа и владения соответственно. В примере (4), несмотря на то, что слово “йорт” не имеет падежного аффикса, падеж как всегда требуемый (обязательный) параметр представлен неявно. Но владение как факультативный (необязательный) параметр в примере (4) вообще не представлено. Обратите внимание, что все примеры имеют следующую структуру:
• строка 1: словоформы на татарском языке (кириллица)
• строка 2: словоформа на татарском языке, представленная в виде основы, за которой следует последовательность аффиксов (латиница)
• строка 3: перевод на английский язык основы каждой словоформы на татарском языке с грамматической теги
• строка 4: перевод словоформы с татарского на английский
(1) Chh TaTapcTaHHaHMH?
Грех Татарстан-нан-ми? PRO N+ABL+INT Вы из Татарстана?
(2) Хопрра йорт-та N+LOC
в доме
(3) HOpTHM йорт-им N+POSS. 1SG мой дом
(4) СопТ ёрт-0 Н.НОМ дом
В процессе работы над системой аннотаций был выработан определенный морфологический эталон корпуса. Содержит способы интерпретации некоторых морфологических явлений татарского языка, особенно дискуссионных. На наш взгляд, необходимо соблюдать баланс между объективной реальностью и традициями теории грамматики. Поэтому, например, многофункциональные аффиксы с сомнительным статусом включаются в разные парадигмы морфологической модели корпуса. Они перечислены в списке грамматических признаков, который доступен при создании поискового запроса.
В примерах (5)-(7) мы видим такие полифункциональные аффиксы: -li/-le и -siz/-sez. Это атрибутиваторы, которые обычно описываются в татарских грамматиках как производные суффиксы, образующие прилагательные. Наряду с этим они также могут выражать синтаксические отношения присутствия или отсутствия: муниципальные и абессивные. В примере (5) kogle является прилагательным, производным от существительного kog (сила), и -le не отделено. В примерах (6) и (7) туба-ле и акка-сиз являются не прилагательными, а склоняемыми существительными, означающими «с крышей посередине» без денег соответственно. Эти характеристики отражены в аннотации нашего корпуса.
(5) Ypaivma Kenne jmrMp sbsl
uram-da kogle yangir yaw-a
N+LOC ADJ N V+PRES
На улице сильный дождь
(6) .amen ya§el tube -le yort ADJ N+ATTR.MUN N
дом с зеленой крышей
(7) Yn aKHacM3 Kurme ul aqga-siz kil-de PRO N+ATTR.ABES V-PST пришел без денег
Морфологический аннотирование корпусных текстов осуществляется с помощью модуля двухуровневого морфологического анализа татарского языка, реализованного в программном средстве PC-KIMMO (http://www.sil.org/pckimmo/about_pc-kimmo.html). Список грамматических признаков, используемых в процессе морфологической аннотации корпуса, находится в файле морфотактических правил программного модуля. Для полного описания морфологической модели литературного татарского языка используется около 60 морфологических тегов. Список тегов частей речи приведен в таблице 2.
Таблица 2. Теги частей речи в татарском корпусе
Часть речи (английская) Часть речи (татарская) Тег
Существительное isem N
Прилагательное Siyfat ADJ
Глагол Figel V
Наречие Râçwe
Число SAN NUM
местоимение Almaçlrq Pro
Соединение Terkâgeç CNJ
Постпозиция Bäylek Part
Partice Kisakça Post
IMLIQ INTJ
MODAL WORDATIATION WORDAITIATIOD WORDAITIATION WORD
.0005
MOD IMIT
Для обозначения морфологических категорий, выражаемых соответствующими морфемами, разработана система обозначений. Он учитывает современные общетипологические и тюркские исследования (мишарский диалект, 2007) и соответствует общепринятой международной терминологии (лейпцигские правила глоссирования, http://www.eva.mpg.de/lingua/resources/glossing-rules.php ). В таблице 3 вы можете увидеть некоторые теги, разработанные специально для татарского языка.
Таблица 3. Специфические грамматические теги в татарском корпусе
Категория
Атрибутивные мунитивные атрибутивные атрибутивные атрибутивные атрибутивные атрибутивные родительные средства
-LI/-LE
-SIZ/-SEZ
-FOGI/-Däge
-RNQI/-NEKE
ATTROCABES ATTRO.MABES ATTROCABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES ATTRO.MABES. ATTR_GEN
Рассмотрим примеры грамматической аннотации слов, принадлежащих к разным частям речи. Предположим, что в анализатор введено следующее предложение:
(8) Без урамыбыздан угеп барабыз
Bez uram-ibiz-dan Ut-ep bar-a-biz
N / PRO.1PL N+POSS.1PL+ABL V+CONV V+PRES+1PL Мы идем по нашей улице
Каждая словоформа в пример (8) получает автоматический морфологический анализ, записанный в отдельной строке файла с анализируемым текстом. На данный момент грамматическая омонимия в корпусе не устранена, поэтому в процессе аннотации представлен альтернативный анализ омонимичных словоформ. Так, например, «без» является омонимичным, и предлагаются два альтернативных варианта наценки (N(bez) / PRO.lPL(bez)).
Необходимо отметить, что различные нарушения регулярности морфологии татарского языка приводят к затруднениям при автоматической обработке, так как многие морфотактические правила на этом материале не работают. Многие из этих нарушений вызваны большим количеством неассимилированных заимствований и несовершенной современной татарской орфографией.
4. Реализация корпуса на платформе ВАНК
Национальный корпус татарского языка размещается в сети Интернет с использованием платформы ВАНК, изначально разработанной компанией CorpusTechnologies для Восточноармянского национального корпуса в 2007 году. Платформа состоит из поисковая система, веб-интерфейс и индексатор – модуль, преобразующий входные текстовые файлы в базы данных и файлы, используемые поисковой системой. Хотя платформа изначально использовалась для армянского языка, большинство ее функциональных возможностей универсальны и могут быть использованы для представления корпусов текстов на любых языках. ” gr=”N, Poss lPl, Abr’x/ana>uramibizdan
Слово-омоним кодируется всеми возможными наборами грамматических признаков. В текущей реализации татарского корпуса омонимия не устранена (см. кодировку слова «без» в примере).
Поисковая система поддерживает следующие типы пользовательских запросов: поиск по точной форме, по лемме (исходной форме) и по ряду грамматических параметров, а также сочетание этих запросов. В результате обработки запроса выбираются предложения, содержащие слова, соответствующие установленным критериям. Результаты каждого запроса отображаются на выходной странице (количество предложений на каждой странице выбирается в настройках и не может превышать 50).
5. Заключение
В статье описана экспериментальная версия Национального корпуса татарского языка «Туган тел» 1.0. Текущее количество слов в корпусе составляет 20 миллионов. Сейчас корпус находится на стадии тестирования данных. В него вошли в основном прозаические тексты, представляющие литературный татарский язык (с 20-х годов XIX века на кириллице), а также современные научные и деловые тексты, тексты официальных документов и газетных материалов. Все тексты, входящие в татарский корпус, проходят специальные процедуры метааннотации (приписывание метаданных тексту) и морфологической аннотации (приписывание морфологической информации каждой словоформе).
Разработанная морфологическая модель и система грамматической аннотации представляют собой попытку комплексной реализации детальной, теоретически обоснованной и прагматически ориентированной грамматической аннотации в корпусах тюркских языков. Основными проблемами при работе над этой задачей являются отсутствие универсального языка описания
грамматических категорий, многозначность и полифункциональность морфем, сложность выделения «чистых» значений. Предлагаемая система грамматической аннотации корпуса татарского языка учитывает все эти аспекты.
Благодарности
Работа выполнена при поддержке Программы фундаментальных исследований РАН “Корпусная лингвистика” 2012-2014 гг.
Ссылки
Aksan, Y. et al. (2012). Создание Турецкого национального корпуса (TNC). Материалы Восьмой международной конференции по языковым ресурсам
и оценке (LREC 2012). Стамбул, Турция. Получено с http://www.lrec-conf.org/proceedings/lrec2012/papers.html Dalkili9, G., & Qebi Y. (2002). Турецкий корпус объемом 300 МБ и анализ слов. Достижения в области информационных систем, 2-я международная конференция,
ADVIS 2002, Измир, Турция. Труды. LNCS 2457, 205-212. Сэй, Бильге, Дениз Зейрек, Кемаль Офлазер и Умут Озге (2002). Разработка корпуса и банка деревьев для современного письменного турецкого языка.
Материалы одиннадцатой Международной конференции по турецкой лингвистике, Восточно-Средиземноморский университет, Кипр, август 2002 г. Юсуп Айбайдулла и Ким-Тенг Луа (2003 г.). Развитие помеченного уйгурского корпуса. Протоколы PACLIC17, 1–3 октября 2003 г., Сентоза, Сингапур, стр. 228–234.
Бускунбаева Л.А., Сиразитдинов З.А. (2011). Система аннотации в Национальном корпусе башкирского языка. Материалы Международной конференции «Языки меньшинств в компьютерных технологиях: опыт, задачи и перспективы», Йошкар-Ола, 46-51. На русском.
Шеймович А.В. (2011). Морфологическая аннотация корпуса хакасского языка. Русская тюркология, 2(5), 48-61. На русском. Салчак А.Я. (2012). Электронный корпус тувинского языка. Электронный информационный журнал “Новые исследования Тувы”, 3. Дата обращения
с URL: http://www.tuva.asia/journal. Бухараев Р.Г., Сулейманов Д.Ш. (1995). К концепции внедрения татарского языка в компьютерные технологии. Татарский
Язык и новые информационные технологии, Выпуск 2, Казань: Казанский государственный университет, 8-19. На русском. Сулейманов Д.Ш., Хакимов Б.Е., Гильмуллин Р.А. (2011). Корпус татарского языка: концептуальные и лингвистические аспекты. ТГГПУ
Дайджест, 26, 211-216.