Коранический арабский корпус - Quranic Arabic Corpus

Коранический арабский корпус
Исследовательский центр:Университет Лидса
Изначальный выпуск:Ноябрь 2009 г.
Язык:Коранический арабский, английский
Аннотация:Синтаксис, морфология
Рамки:Грамматика зависимостей
Лицензия:Стандартная общественная лицензия GNU
Интернет сайт:http://corpus.quran.com/
Дерево синтаксиса зависимостей для стиха (67: 1)

В Коранический арабский корпус это аннотированный лингвистический ресурс, состоящий из 77 430 слов коранического арабского языка. Проект направлен на предоставление морфологических и синтаксических аннотаций исследователям, желающим изучать язык Корана.[1][2][3][4][5]

Функции

Грамматический анализ помогает читателям глубже раскрыть предполагаемые значения каждого стиха и предложения. Каждое слово Корана помечено своей частью речи, а также несколькими морфологическими особенностями. В отличие от других аннотированных арабских корпусов, грамматическая структура, принятая в Кораническом корпусе, является традиционной арабской грамматикой ираб (إﻋﺮﺍﺏ). Исследовательский проект возглавляет Kais Dukes на Университет Лидса,[4] и является частью исследовательской группы по арабскому языку в вычислительной школе, которую возглавляет Эрик Этвелл.[6]

Аннотированный корпус включает:[1][7]

  • Проверено вручную часть речи помечен Коранический арабский корпус.
  • Аннотированный берега дерева Коранического арабского языка.
  • Новая визуализация традиционного Арабская грамматика через графы зависимостей.
  • Морфологический поиск Корана.
  • Машиночитаемый морфологический словарь коранических слов на английском языке.
  • Часть речи согласованность для коранического арабского языка, организованного леммой.
  • Онлайн-доска объявлений для комментариев волонтеров сообщества.

Аннотации корпуса присваивают каждому слову тег части речи и морфологические особенности. Например, при аннотации необходимо решить, является ли слово существительным или глаголом, и имеет ли оно склонение к мужскому или женскому роду. Первый этап проекта включал автоматическую разметку части речи с применением компьютерной технологии арабского языка к тексту. Аннотации для каждого из 77 430 слов Корана были затем поэтапно рассмотрены двумя аннотаторами, и все еще продолжаются улучшения для дальнейшего повышения точности.

Лингвистическое исследование Корана с использованием аннотированного корпуса включает обучение Скрытая марковская модель часть речи тегеры для арабского языка,[8] автоматическая категоризация глав Корана,[9] и просодический анализ текста.[10]

Кроме того, в проекте предусмотрена пословная Перевод Корана основанный на общепринятых английских источниках, а не на новом переводе Корана.[4]

Смотрите также

Рекомендации

  1. ^ а б К. Дьюкс, Э. Этвелл и Н. Хабаш (2011). Совместная работа с руководителем для синтаксической аннотации коранического арабского языка. Языковые ресурсы и оценочный журнал (LREJ). Специальный выпуск о совместно созданных языковых ресурсах.
  2. ^ Совместная работа с руководителем для синтаксической аннотации коранического арабского языка в ResearchGate. Загружено Nizar Habash, Колумбийский университет.
  3. ^ К. Дьюкс и Т. Баквалтер (2010). Древовидный банк зависимостей Корана с использованием традиционной арабской грамматики. В материалах 7-й Международной конференции по информатике и системам (INFOS). Каир, Египет.
  4. ^ а б c Коранический арабский корпус В архиве 2013-02-23 в Wayback Machine в The Muslim Tribune. 20 июня 2011 г.
  5. ^ Эрик Этвелл, Клэр Бриерли, Кейс Дьюкс, Маджди Савальха и Абдул-Бакы Шараф. Подход искусственного интеллекта к арабскому и исламскому контенту в Интернете[постоянная мертвая ссылка ], стр. 2. Эр-Рияд: Университет Короля Сауда, 2011.
  6. ^ Инженерное дело. «Профиль доктора Эрика Этвелла, Школа вычислительной техники, Университет Лидса». www.comp.leeds.ac.uk.
  7. ^ К. Дьюкс и Н. Хабаш (2011). Одношаговый статистический анализ гибридных синтаксических представлений зависимостей и групп. Международная конференция по технологиям парсинга (IWPT). Дублин, Ирландия.
  8. ^ М. Альбаред, Н. Омар и М. Аб Азиз (2011). Разработка конкурентоспособного HMM Arabic POS Tagger с использованием небольших обучающих корпусов. Интеллектуальные информационные системы и системы баз данных. Springer Berlin, Гейдельберг.
  9. ^ А. М. Шараф, Э. Этвелл (2011). Автоматическая категоризация глав Корана. 7-я Международная компьютерная конференция на арабском языке (ICCA11). Эр-Рияд, Саудовская Аравия.
  10. ^ К. Бриерли, М. Савалья и Э. Этвелл (2012). Корпус Корана с аннотациями границ для предсказания разрыва арабской фразы. В архиве 2018-12-15 на Wayback Machine Ежегодный симпозиум IVACS. Кембридж.

внешняя ссылка