Витяг інформації відноситься до процес, починаючи з неструктурованих джерел (наприклад, текстових документів, написаних звичайною англійською мовою) і автоматично витягаючи структуровану інформацію (тобто дані в чітко визначеному форматі, який легко сприймається комп’ютером).
Витяг інформації є процес вилучення інформації з неструктурованих текстових джерел, щоб забезпечити можливість пошуку сутностей, а також класифікувати та зберігати їх у базі даних.
Витяг інформації (IE) є завдання автоматичного вилучення структурованої інформації з неструктурованих та/або напівструктурованих машинозчитуваних документів та інших електронних джерел. Як правило, це включає обробку текстів людською мовою за допомогою обробки природної мови (NLP).
У своєму найпростішому теоретичному аспекті процес екстракції полягає в сприяння перенесенню маси цікавих молекул із твердої фази (наприклад, рослинної сировини) у рідку фазу, яка називається розчинником. У процесі екстракції можна визначити два різні основні етапи.
Вилучення даних є процес отримання необроблених даних із джерела та реплікації цих даних в іншому місці. Необроблені дані можуть надходити з різних джерел, таких як база даних, електронна таблиця Excel, платформа SaaS, веб-скрапінг тощо.
Видобуток натуральних продуктів проходить наступні етапи: (1) розчинник проникає в тверду матрицю; (2) розчинена речовина розчиняється в розчинниках; (3) розчинена речовина дифундує з твердої матриці; (4) екстраговані розчинені речовини збираються.
Екстракція в хімії є процес розділення, що складається з відділення речовини від матриці. Розподіл розчиненої речовини між двома фазами є станом рівноваги, який описується теорією розподілу. Це базується на тому, як саме аналіт переміщується з початкового розчинника в екстрагуючий розчинник.