저희 제품을 활용하면 워크플로우를 간소화하고 몇 분 만에 PDF에서 텍스트를 효율적으로 추출할 수 있습니다. 자동화된 시스템 덕분에 수동으로 데이터를 입력할 필요가 없으므로 오류의 위험이 줄어들고 전반적인 생산성이 향상됩니다. 몇 번의 클릭만으로 여러 PDF 파일에서 동시에 텍스트를 추출할 수 있어 기업과 개인 모두에게 유용한 도구입니다.
Build your automated pdf to text extractor in a minute! Perfect solution for those who deal with large amounts of incoming CVs or other documents! Extract data from documents using remote workflow on Latenode.com!
In this article you’ll see how to create an automated no code workflow that will extract data from the PDF files on your Google Drive using API and Chat GPT, and filling the Google Sheet form with the data.
Also, you can get the template of that scenario that you can copy and use for yourself for free!
You can upgrade this template or use it not only for pdf text extraction.
Let’s take a look at the whole pdf scraper scenario first, and then break each step down.
How does this pdf extract scenario work? Once in an hour it takes all the CVs in pdf format from the Google Drive, converts to the txt files using HTTP-request, then chatGPT assistant Extracts the needed data and fills out the Google Spreadsheet.
And here’s a step-by-step instruction for those who want to learn the process. Remember about free to use and ready to go templates at the end of the article.
For this scenario, you’ll need to have the ability to use Open AI Assistants and any API converter.
방법은 간단합니다. OpenAI 계정에 로그인한 다음, 다음 항목으로 이동합니다. 어시스턴트로 이동하여 오른쪽 상단에 있는 '만들기' 버튼을 클릭합니다. 어시스턴트의 설정 패널이 표시됩니다.
여기에서 해야 합니다:
Copy the assistant’s ID (you see it under the Name column), then go to API keys, create one and save it.
Use any you like. I took ConvertAPI because it has a free trial and provides a lot of info.
Now we switch to Latenode.com. Here, we have to create the pdf to text conversion scenario: (You don't need to create it from scratch, just copy the template at the end of the article)
Click “Add node” in the scenario tab, choose “Schedule” from the list. Click on the node to set it up. Specify the interval and the timezone, save the changes. I also added a trigger on Run once, just for convenience.
Click “Add node”, search for Google drive folder in actions tab, and choose “Find file” node.
To make it work you have to log into gmail account to get access token, choose drive and Search name. In this case, I want to extract data from files that have CV in their name.
Next add “Download file” from the same action folder of Google drive.
Use id from the results of the previous node, and then click run node once to save the changes and make the data flow through the scenario. You’ll get the file in the output.
That is the code the AI gave me. You can take it here(#1). Replace const fileContentPath with your object from the previous node.
Find HTTP request in the list of actions. To understand how to create it, visit ConvertAPI documentation. Here we can take info about setting up the request.
Here’s how my pdf to txt conversion request looks like.
I use an object from Find file Google Drive node to specify the name of the downloaded file, and file content in base64 from the Javascript node. And add Content-Type=application/json pair in Headers.
Run node once to get the file from the HTTP request.
Another code node, #2 here.
This time, I asked AI to extract text from the txt file.
We’ll face 3 GPT nodes here:
Each node performs an action with OpenAI.
First we create a thread, or conversation with the GPT Assistant
Insert your Open AI API key, that’s it! Run node once and get the id of the created thread in the output.
Here you need an API key again. In the thread ID field put the result of the previous node. You’ll see it in the helper window after you click on the input field.
In “Message content” give some additional instructions if you want and put the filecontent from the last Javascript node. Automated pdf extractor is one step closer!
This node gets the pdf scraper reply.
Specify the node just like your OpenAI assistant and use GPT assistant ID.
Here we use JS node the last time, to make 3 separate json objects out of the Assistants reply.
Here’s the example, just put your data in content const.
Let’s put this data somewhere, Google Sheets is a good option for this pdf data extract scenario on latenode.com.
Log into gmail account once more to get access token, choose the drive and the sheet, and put jsons into the fields, save the scenario and click run once to run or deploy the scenario to activate the schedule trigger.
After a successful scenario execution this workflow will extract the text from pdf file on your Google Drive and put it into your Google Spreadsheet.
That is how to create a pdf extractor with no code on latenode.
As I promised, here’s the template of this workflow. Just copy it and follow this guide article to set it up.
There’s a video about it, don’t bother reading!
If you want somebody to help you, check out our Discord channel, we have some devs in it ready to assist!
예, Latenode 은 모든 기술 수준의 사용자를 위해 설계되었습니다. 자바스크립트에 능숙한 사용자를 위한 고급 기능과 초보자를 위한 직관적인 시각적 도구 및 AI 지원을 제공합니다. 숙련된 개발자이든 초보자이든 Latenode 은 사용자의 기술 수준에 맞는 사용자 친화적인 환경을 제공합니다.
예, Latenode 은 다양한 타사 서비스 및 API와의 통합을 지원합니다. Latenode 을 다양한 온라인 플랫폼, 데이터베이스 및 소프트웨어 시스템에 연결하여 데이터 전송을 자동화하고 작업을 트리거하며 워크플로우를 간소화할 수 있습니다. Latenode 또한 통합 프로세스를 용이하게 하는 도구와 리소스를 제공합니다.
예, Latenode 에서는 기능을 살펴볼 수 있는 무료 버전을 제공합니다. 이 버전에는 Latenode 의 일부 기능이 포함되어 있어 자동화를 시작하고 그 이점을 경험할 수 있습니다. 그런 다음 추가 기능 및 리소스를 위해 유료 요금제로 업그레이드할지 여부를 결정할 수 있습니다.
Latenode 는 고객이 자동화를 통해 워크플로우를 간소화할 수 있도록 설계된 가시적이고 직관적인 자동화 도구입니다. 이를 통해 고객은 다양한 인터넷 서비스와 가젯을 연결하여 전산화 전략을 수립함으로써 의무를 자동화하고 생산성을 성공적으로 꾸밀 수 있습니다.
데이터 통합을 통해 모든 마케팅 도구를 한 곳에 통합함으로써 Latenode 운영 현황을 종합적으로 파악할 수 있습니다. 이를 통해 잠재적 기회를 더 쉽게 파악하고 정확한 데이터를 기반으로 정보에 입각한 의사 결정을 내릴 수 있습니다.