WikiDer > Прибивание текста

Text nailing
Контролируемое обучение по сравнению с прибавлением текста
Пример преобразованной заметки, состоящей только из букв («приколотая заметка»)

Прибивание текста (TN) - это извлечение информации метод полуавтоматического извлечения структурированной информации из неструктурированных документов. Этот метод позволяет человеку в интерактивном режиме просматривать небольшие фрагменты текста из большой коллекции документов, чтобы идентифицировать потенциально информативные выражения. Идентифицированные выражения можно затем использовать для улучшения вычислительных методов, основанных на тексте (например, Регулярное выражение), а также продвинутый обработка естественного языка (НЛП) техники. TN объединяет две концепции: 1) взаимодействие человека с повествовательным текстом для выявления широко распространенных неотрицательных выражений и 2) преобразование всех выражений и примечаний в неотрицательные представления, состоящие только из алфавита, для создания однородных представлений. [1][2]

В традиционных машинное обучение подходы для классификация текста, специалист-человек должен маркировать фразы или целые заметки, а затем контролируемое обучение алгоритм пытается обобщить ассоциации и применить их к новым данным. Напротив, использование неотрицательных отдельных выражений устраняет необходимость в дополнительном вычислительном методе для достижения обобщаемости.[3][4][5]

История

TN был разработан в Массачусетская больница общего профиля и был протестирован в нескольких сценариях, включая определение статуса курения, семейный анамнез ишемической болезни сердца, выявление пациентов с нарушениями сна,[6] повысить точность Оценка риска Фрамингема для пациентов с неалкогольная жировая болезнь печении классифицировать несоблюдение режима лечения диабетом 2 типа. Подробный обзор извлечения информации из текстовых документов в электронная медицинская карта доступен.[7][8]

Важность использования неотрицательных выражений для повышения точности текстовых классификаторов была подчеркнута в письме, опубликованном в Сообщениях ACM в октябре 2018 года.[9]

Исходный код

Пример кода для извлечения статуса курения из повествовательных заметок с помощью "прибитых выражений" доступен в GitHub.[10]

TN как прогрессивный кибер-человеческий интеллект

В июле 2018 г. исследователи из Технологический институт Вирджинии и Университет штата Иллинойс в Урбане-Шампейн назвал TN примером прогрессивного кибер-человеческого интеллекта (PCHI).[11]

Критика машинного обучения в здравоохранении

Chen & Asch 2017 написали: «С машинным обучением, находящимся на пике завышенных ожиданий, мы можем смягчить последующий обвал и превратить его в« впадину разочарования », способствуя более глубокому пониманию возможностей и ограничений технологии».[12]

Письмо опубликовано в Коммуникации ACM"За гранью грубой силы" подчеркнула, что метод грубой силы может работать лучше, чем традиционные алгоритмы машинного обучения, когда применяется к тексту. В письме говорилось, что «... алгоритмы машинного обучения, когда они применяются к тексту, основываются на предположении, что любой язык включает бесконечное количество возможных выражений. В отличие от этого, в различных медицинских условиях, мы заметили, что врачи склонны использовать одни и те же выражения для описания состояний пациентов ".[13]

В своей точке зрения, опубликованной в июне 2018 года относительно медленного внедрения результатов, основанных на данных, в медицине, Ури Картун, соавтор Text Nailing, заявляет, что «... Text Nailing вызвал скептицизм у рецензентов журналов по медицинской информатике, которые утверждали, что он полагается на простые уловки для упрощения текста и в значительной степени опирается на человеческие аннотации. TN действительно может показаться на первый взгляд уловкой света, но на самом деле это довольно сложный метод, который в конце концов привлек внимание более предприимчивых рецензентов и редакторов, которые в конечном итоге согласились это для публикации ".[14]

Критика

Процесс взаимодействия с пользователем - это способ создания функций с помощью экспертов в предметной области. Использование экспертов в предметной области для разработки функций - не новая концепция. Однако конкретные интерфейсы и метод, которые помогают специалистам в предметной области создавать функции, скорее всего, являются новыми.

В этом случае функции, создаваемые экспертами, эквивалентны регулярным выражениям. Удаление небуквенных символов и сопоставление на "smokesppd" эквивалентно регулярному выражению / smokes [^ a-zA-Z] * ppd /. Использование регулярных выражений в качестве функций для классификации текста не новость.

Учитывая эти особенности, классификатор - это пороговое значение, устанавливаемое авторами вручную, определяемое характеристиками набора документов. Это классификатор, просто параметры классификатора, в данном случае порог, задаются вручную. При одинаковых функциях и документах почти любой алгоритм машинного обучения должен быть в состоянии найти тот же порог или (что более вероятно) лучший.

Авторы отмечают, что использование поддерживающих векторных машин (SVM) и сотен документов дает худшую производительность, но не указывает, на каких функциях или документах SVM была обучена / протестирована. Для честного сравнения будут использоваться те же функции и наборы документов, что и при ручном классификаторе пороговых значений.

Рекомендации

  1. ^ Картун, Ури (2017). «Прибивание текста». Взаимодействия. 24 (6): 44–9. Дои:10.1145/3139488. S2CID 29010232.
  2. ^ Барбоза, Симона; Коктон, Гилберт (2017). «Избежание предвзятости в повестке дня с продуманным дизайном». Взаимодействия. 24 (6): 5. Дои:10.1145/3151556. S2CID 657561.
  3. ^ Луч, Эндрю Л; Картун, Ури; Пай, Дженнифер К; Чаттерджи, Арнауб К.; Фитцджеральд, Тимоти П.; Шоу, Стэнли Y; Кохан, Исаак С (2017). «Прогнозирующее моделирование динамики врач-пациент, которая влияет на рецепты снотворных и принятие клинических решений». Научные отчеты. 7: 42282. Bibcode:2017НатСР ... 742282Б. Дои:10.1038 / srep42282. ЧВК 5299453. PMID 28181568.
  4. ^ Саймон, Трейси Джи; Картун, Ури; Чжэн, Хуэй; Чан, Эндрю Т; Чанг, Раймонд Т; Шоу, Стэнли; Кори, Кэтлин Э (2017). «Модель терминальной стадии болезни печени Na ​​Score позволяет прогнозировать серьезные сердечно-сосудистые события у пациентов с неалкогольной жировой болезнью печени». Связь с гепатологией. 1 (5): 429–438. Дои:10.1002 / hep4.1051. ЧВК 5659323. PMID 29085919.
  5. ^ Кори, Кэтлин Э; Картун, Ури; Чжэн, Хуэй; Чанг, Раймонд Т; Шоу, Стэнли Y (2016). «Использование электронной базы данных медицинских записей для выявления нетрадиционных факторов риска сердечно-сосудистых заболеваний при неалкогольной жировой болезни печени». Американский журнал гастроэнтерологии. 111 (5): 671–6. Дои:10.1038 / ajg.2016.44. ЧВК 4864030. PMID 26925881.
  6. ^ Картун, Ури; и другие. (2018). «Разработка алгоритма идентификации пациентов с бессонницей, задокументированной врачом». Научные отчеты. 8 (1): 7862. Bibcode:2018НатСР ... 8.7862K. Дои:10.1038 / s41598-018-25312-z. ЧВК 5959894. PMID 29777125.
  7. ^ Мейстр, С. М.; Савова, Г. К; Киппер-Шулер, К. С; Препятствие, Дж. Ф (2008). «Извлечение информации из текстовых документов в электронной медицинской карте: обзор последних исследований». Ежегодник медицинской информатики: 128–44. PMID 18660887.
  8. ^ Ван, Яншань; Ван, Ливэй; Растегар-Моджарад, Маджид; Луна, Сунгрим; Шен, Фейхен; Афзал, Навид; Лю, Сиджи; Цзэн, Юйцюнь; Мехраби, Саид; Сон, Сунгван; Лю, Хунфан (2018). «Приложения для извлечения клинической информации: обзор литературы». Журнал биомедицинской информатики. 77: 34–49. Дои:10.1016 / j.jbi.2017.11.011. ЧВК 5771858. PMID 29162496.
  9. ^ Персонал CACM (2018). «Более точный анализ текста для улучшения результатов лечения пациентов». Коммуникации ACM. 61 (10): 6–7. Дои:10.1145/3273019. S2CID 52901757.
  10. ^ "GitHub - картаун / набивка текста". 2018-01-07.
  11. ^ https://dl.acm.org/citation.cfm?id=3231559
  12. ^ Чен, Джонатан Х; Аш, Стивен М (2017). «Машинное обучение и прогнозирование в медицине - за гранью завышенных ожиданий». Медицинский журнал Новой Англии. 376 (26): 2507–9. Дои:10.1056 / NEJMp1702071. ЧВК 5953825. PMID 28657867.
  13. ^ Персонал CACM (2017). «За гранью грубой силы». Коммуникации ACM. 60 (10): 8–9. Дои:10.1145/3135241.
  14. ^ Картун, Ури (2018). «К ускоренному внедрению результатов, основанных на данных, в медицине». Медицина, здравоохранение и философия. 22 (1): 153–157. Дои:10.1007 / s11019-018-9845-у. PMID 29882052. S2CID 46973857.