Корпус Хамшахри (перс. پیکره همشهری) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри»[англ.], одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group[1], базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада[2], на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.
Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.
Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.
Корпус доступен в нескольких форматах для загрузки[2]:
Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:
Корпус доступен для загрузки в формате XML.